Получите расчетное представление функции ценности
возвращает предполагаемые функции ценности состояния активности для множественного представления функции Q-значения value = getValue(qValueRep,obs)qValueRep заданные наблюдения окружения obs. В этом случае qValueRep имеет столько выходов, сколько возможных дискретных действий, и getValue возвращает функцию «состояние-значение» для каждого действия.
возвращает предполагаемую функцию ценности состояния активности для представления функции Q-значения с одним выводом value = getValue(qValueRep,obs,act)qValueRep заданные наблюдения окружения obs и действия act. В этом случае, getValue возвращает функцию «состояние-значение» для заданных входов наблюдений и действий.