Получите представление функции ориентировочной стоимости
возвращает предполагаемые функции ценности состояния активности для нескольких представление Q-функции-ценности value = getValue(qValueRep,obs)qValueRep учитывая наблюдения среды obs. В этом случае, qValueRep имеет столько же выходных параметров, сколько существуют возможные дискретные действия и getValue возвращает функцию ценности состояния для каждого действия.
возвращает предполагаемую функцию ценности состояния активности для представления Q-функции-ценности одно выхода value = getValue(qValueRep,obs,act)qValueRep учитывая наблюдения среды obs и действия act. В этом случае, getValue возвращает функцию ценности состояния для входных параметров действия и заданного наблюдения.