Получить максимальную оценку функции состояния-значения для представления функции Q-значения с дискретным пространством действия
[ возвращает максимальную оцененную функцию состояния-значения для представления функции Q-значения maxQ,maxActionIndex] = getMaxQValue(qValueRep,obs)qValueRep данные наблюдения за окружающей средой obs. getMaxQValue определяет дискретное действие, для которого оценка Q-значения является наибольшей, и возвращает это значение Q (maxQ) и соответствующий индекс действия (maxActionIndex).
[ возвращает состояние представления. Использовать этот синтаксис при maxQ,maxActionIndex,state] = getMaxQValue(___)qValueRep является рецидивирующей нейронной сетью.