Агенты обучения с подкреплением

Цель обучения с подкреплением состоит в том, чтобы настроить агента для выполнения задачи в неопределенном окружении. Агент получает наблюдения и вознаграждение от окружения и посылает туда действия. Вознаграждение является мерой того, насколько успешно действие относительно выполнения цели задачи.

Агент содержит два компонента: политика и алгоритм обучения.

Политика является отображением, которое выбирает действия на основе наблюдений от среды. Как правило, политика представляет собой аппроксимирующую функцию с настраиваемыми параметрами, например, глубокую нейронную сеть.
Алгоритм обучения постоянно обновляет параметры политики на основе действий, наблюдений и вознаграждений. Цель алгоритма обучения состоит в том, чтобы найти оптимальную политику, которая максимизирует совокупное вознаграждение, полученное во время задачи.

В зависимости от алгоритма обучения агент поддерживает одну или несколько параметризованных функциональных аппроксимаций для настройки политики. Существует два типа функциональных аппроксимаций.

Критики — Для заданного наблюдения и действия, критик находит ожидаемое значение долгосрочного будущего вознаграждения за задачу.
Агенты — Для заданного наблюдения, агент находит действие, которое максимизирует долгосрочное будущее вознаграждение

Для получения дополнительной информации о создании функциональных аппроксимаций актёра и критика смотрите, Создают Представления Функции ценности и политика.

Встроенные агенты

Программное обеспечение Reinforcement Learning Toolbox™ предоставляет следующих встроенных агентов. Каждый агент может быть обучен в окружениях с непрерывными или дискретными пространствами наблюдений и нижеследующими пространствами действий.

Агент	Действия
Агенты Q-обучения	Дискретный
Агенты SARSA	Дискретный
Глубокие агенты Q-сети	Дискретный
Агенты градиента политики	Дискретный или непрерывный
Глубоко детерминированные агенты градиента политики	Непрерывный
Задержанный близнецами глубоко детерминированные агенты градиента политики	Непрерывный
Агенты критика агента	Дискретный или непрерывный
Ближайшие агенты оптимизации политики	Дискретный или непрерывный

Пользовательские агенты

Можно также обучить политики с помощью других алгоритмов обучения путем создания пользовательского агента. Для этого вы создаете подкласс пользовательского класса агента, задавая поведение агента с помощью набора необходимых и дополнительных методов. Для получения дополнительной информации смотрите Пользовательских Агентов.

Документация