Получите максимальную оценку функции состояния для представления функции Q-значения с дискретным пространством действий
[
возвращает максимальную предполагаемую функцию значения состояния для представления функции Q-значения maxQ
,maxActionIndex
] = getMaxQValue(qValueRep
,obs
)qValueRep
заданные наблюдения окружения obs
. getMaxQValue
определяет дискретное действие, для которого оценка Q-значения является наибольшей, и возвращает это значение Q (maxQ
) и соответствующий индекс действия (maxActionIndex
).
[
возвращает состояние представления. Используйте этот синтаксис при maxQ
,maxActionIndex
,state
] = getMaxQValue(___)qValueRep
является рекуррентной нейронной сетью.