Получите максимальную оценку функции ценности состояния для представления Q-функции-ценности с дискретным пространством действий
[
возвращает максимальную предполагаемую функцию ценности состояния для представления Q-функции-ценности maxQ
,maxActionIndex
] = getMaxQValue(qValueRep
,obs
)qValueRep
учитывая наблюдения среды obs
. getMaxQValue
определяет дискретное действие, для которого оценка Q-значения является самой большой и возвращает это значение Q (maxQ
) и соответствующий индекс действия (maxActionIndex
).
[
возвращает состояние представления. Используйте этот синтаксис когда maxQ
,maxActionIndex
,state
] = getMaxQValue(___)qValueRep
рекуррентная нейронная сеть.