Таблица Value или Q-таблица
Таблицы значения и Q-таблицы являются одним способом представлять сети критика для обучения с подкреплением. Таблицы значения хранят вознаграждения за конечное множество наблюдений. Q-таблицы хранят вознаграждения за соответствующие конечные пары действия наблюдения.
Создать представление функции ценности с помощью rlTable
объект, используйте rlValueRepresentation
или rlQValueRepresentation
объект.
rlValueRepresentation | Представление критика функции ценности для агентов обучения с подкреплением |
rlQValueRepresentation | Представление критика Q-функции-ценности для агентов обучения с подкреплением |