Получите максимальную оценку функции состояния для представления функции Q-значения с дискретным пространством действий
[ возвращает максимальную предполагаемую функцию значения состояния для представления функции Q-значения maxQ,maxActionIndex] = getMaxQValue(qValueRep,obs)qValueRep заданные наблюдения окружения obs. getMaxQValue определяет дискретное действие, для которого оценка Q-значения является наибольшей, и возвращает это значение Q (maxQ) и соответствующий индекс действия (maxActionIndex).
[ возвращает состояние представления. Используйте этот синтаксис при maxQ,maxActionIndex,state] = getMaxQValue(___)qValueRep является рекуррентной нейронной сетью.