Получите расчетное представление функции ценности
возвращает предполагаемые функции ценности состояния активности для множественного представления функции Q-значения value
= getValue(qValueRep
,obs
)qValueRep
заданные наблюдения окружения obs
. В этом случае qValueRep
имеет столько выходов, сколько возможных дискретных действий, и getValue
возвращает функцию «состояние-значение» для каждого действия.
возвращает предполагаемую функцию ценности состояния активности для представления функции Q-значения с одним выводом value
= getValue(qValueRep
,obs
,act
)qValueRep
заданные наблюдения окружения obs
и действия act
. В этом случае, getValue
возвращает функцию «состояние-значение» для заданных входов наблюдений и действий.