Получите представление функции ориентировочной стоимости
возвращает предполагаемые функции ценности состояния активности для нескольких представление Q-функции-ценности value
= getValue(qValueRep
,obs
)qValueRep
учитывая наблюдения среды obs
. В этом случае, qValueRep
имеет столько же выходных параметров, сколько существуют возможные дискретные действия, и getValue
возвращает функцию ценности состояния для каждого действия.
возвращает предполагаемую функцию ценности состояния активности для представления Q-функции-ценности одно выхода value
= getValue(qValueRep
,obs
,act
)qValueRep
учитывая наблюдения среды obs
и действия act
. В этом случае, getValue
возвращает функцию ценности состояния для входных параметров действия и заданного наблюдения.