Таблица Value или Q-таблица
Можно составить таблицы значения и Q-таблицы, чтобы представлять сети критика для обучения с подкреплением. Таблицы значения хранят вознаграждения за конечное множество наблюдений. Q-таблицы хранят вознаграждения за соответствующие конечные пары действия наблюдения.
Создать представление функции значения с помощью rlTable
объект, используйте rlRepresentation
функция.
rlRepresentation | Представление модели для агентов обучения с подкреплением |