Агенты

Создайте и сконфигурируйте агентов обучения с подкреплением, используя общие алгоритмы, такие как SARSA, DQN, DDPG и A2C

Агент обучения с подкреплением получает наблюдения и вознаграждение от окружения. Используя свою политику, агент выбирает действие на основе наблюдений и вознаграждения и отправляет действие в окружение. Во время обучения агент постоянно обновляет параметры политики на основе действия, наблюдений и вознаграждения. Это позволяет агенту научиться оптимальной политике при заданных окружении и сигнале вознаграждения.

Пакет Reinforcement Learning Toolbox™ предоставляет агентов обучения с подкреплением, которые используют несколько общих алгоритмов, таких как SARSA, DQN, DDPG и A2C. Можно также реализовать другие алгоритмы агента, создав собственных пользовательских агентов.

Для получения дополнительной информации см. Раздел «Агенты обучения с подкреплением». Дополнительные сведения об определении представлений политики см. в разделах Создание представлений политики и функции ценности.

Приложения

Reinforcement Learning DesignerПроектируйте, обучайте и симулируйте агентов обучения с подкреплением

Функции

расширить все

rlQAgentАгент обучения с подкреплением Q-обучения
rlSARSAAgentАгент обучения с подкреплением SARSA
rlDQNAgentАгент обучения с подкреплением глубокой Q-сети
rlPGAgentАгент обучения с подкреплением с градиентом политики
rlDDPGAgentАгент глубокого детерминированного градиента обучения с подкреплением политики
rlTD3AgentАгент обучения с подкреплением с двумя задержками в глубоком детерминировании политики
rlACAgentАгент обучения с подкреплением актёра-критика
rlPPOAgentПроксимальный агент обучения с подкреплением оптимизации политики
rlSACAgentМягкий агент обучения с подкреплением актёра-критика
rlQAgentOptionsОпции для агента Q-обучения
rlSARSAAgentOptionsОпции для агента SARSA
rlDQNAgentOptionsОпции для агента DQN
rlPGAgentOptionsОпции для агента PG
rlDDPGAgentOptionsОпции для агента DDPG
rlTD3AgentOptionsОпции для TD3 агента
rlACAgentOptionsОпции для агента AC
rlPPOAgentOptionsОпции для агента PPO
rlSACAgentOptionsОпции для агента SAC
rlAgentInitializationOptionsОпции для инициализации агентов обучения с подкреплением
getActorПолучите представление актера от агента обучения с подкреплением
getCriticПолучите представление критика от агента обучения с подкреплением
setActorУстановите представление актера агента обучения с подкреплением
setCriticУстановите представление критика агента обучения с подкреплением
getActionПолучите действие от агента или представления актера заданных наблюдений окружения

Темы

Основы работы с агентами

Агенты обучения с подкреплением

Можно создать агента с помощью одного из нескольких стандартных алгоритмов обучения с подкреплением или описать собственного агента.

Создайте агентов с помощью Reinforcement Learning Designer

Интерактивно создайте или импортируйте агентов для обучения с помощью приложения Reinforcement Learning Designer.

Типы агентов

Агенты Q-обучения

Создайте агентов Q-обучения для обучения с подкреплением.

Агенты SARSA

Создайте агентов SARSA для обучения с подкреплением.

Агенты глубоких Q-сетей

Создайте агентов DQN для обучения с подкреплением.

Агенты градиента политики

Создайте агентов PG для обучения с подкреплением.

Глубокие детерминированные агенты градиента политики

Создайте агентов DDPG для обучения с подкреплением.

Двухдневные глубокие детерминированные агенты градиента политики

Создайте агентов TD3 для обучения с подкреплением.

Агенты актёра-критика

Создайте агентов AC для обучения с подкреплением.

Проксимальные агенты оптимизации политики

Создайте агентов PPO для обучения с подкреплением.

Агенты мягкого актёра-критика

Создайте агентов SAC для обучения с подкреплением.

Настраиваемые агенты

Создайте пользовательских агентов обучения с подкреплением

Создайте агентов, которые используют пользовательские алгоритмы обучения с подкреплением.

Для просмотра документации необходимо авторизоваться на сайте