Таблица значений или Q-таблица
Таблицы значений и Q-таблицы являются одним из способов представления сетей критика для обучения с подкреплением. В таблицах значений хранятся вознаграждения для конечного набора наблюдений. Q-таблицы сохраняют вознаграждения для соответствующих конечных пар действия наблюдений.
Чтобы создать представление функции ценности с помощью rlTable
объект, использовать rlValueRepresentation
или rlQValueRepresentation
объект.
rlValueRepresentation | Представление критика функции ценности для агентов обучения с подкреплением |
rlQValueRepresentation | Представление Q-функции критика для агентов обучения с подкреплением |