Получите максимальную оценку функции ценности состояния для представления Q-функции-ценности с дискретным пространством действий
[ возвращает максимальную предполагаемую функцию ценности состояния для представления Q-функции-ценности maxQ,maxActionIndex] = getMaxQValue(qValueRep,obs)qValueRep учитывая наблюдения среды obs. getMaxQValue определяет дискретное действие, для которого оценка Q-значения является самой большой и возвращает это значение Q (maxQ) и соответствующий индекс действия (maxActionIndex).
[ возвращает состояние представления. Используйте этот синтаксис когда maxQ,maxActionIndex,state] = getMaxQValue(___)qValueRep рекуррентная нейронная сеть.