Агенты

Создайте и сконфигурируйте агентов обучения с подкреплением с помощью общих алгоритмов, таких как SARSA, DQN, DDPG и PPO

Агент обучения с подкреплением получает наблюдения и вознаграждение от окружения. Используя свою политику, агент выбирает действие на основе наблюдений и вознаграждения и отправляет действие в окружение. Во время обучения агент постоянно обновляет параметры политики на основе действия, наблюдений и вознаграждения. Это позволяет агенту научиться оптимальной политике при заданных окружении и сигнале вознаграждения.

Пакет Reinforcement Learning Toolbox™ предоставляет агентов обучения с подкреплением, которые используют несколько общих алгоритмов, таких как SARSA, DQN, DDPG и PPO. Можно также реализовать другие алгоритмы агента путем создания собственных агентов.

Для получения дополнительной информации смотрите Агентов Обучения с подкреплением. Для получения дополнительной информации об определении представлений политики смотрите, Создают Представления Функции ценности и политика.

Приложения

Reinforcement Learning DesignerСпроектируйте, обучите и симулируйте агентов обучения с подкреплением

Функции

развернуть все

rlQAgentАгент обучения с подкреплением Q-изучения
rlSARSAAgentАгент обучения с подкреплением SARSA
rlDQNAgentГлубокий агент обучения с подкреплением Q-сети
rlPGAgentАгент обучения с подкреплением градиента политики
rlDDPGAgentГлубоко детерминированный агент обучения с подкреплением градиента политики
rlTD3AgentЗадержанный близнецами глубоко детерминированный агент обучения с подкреплением градиента политики
rlACAgentАгент обучения с подкреплением критика агента
rlPPOAgentБлижайший агент обучения с подкреплением оптимизации политики
rlTRPOAgentДоверительный агент обучения с подкреплением оптимизации политики области
rlSACAgentМягкий агент обучения с подкреплением критика агента
rlQAgentOptionsОпции для агента Q-обучения
rlSARSAAgentOptionsОпции для агента SARSA
rlDQNAgentOptionsОпции для агента DQN
rlPGAgentOptionsОпции для агента PG
rlDDPGAgentOptionsОпции для агента DDPG
rlTD3AgentOptionsОпции для агента TD3
rlACAgentOptionsОпции для агента AC
rlPPOAgentOptionsОпции для агента PPO
rlTRPOAgentOptionsОпции для агента TRPO
rlSACAgentOptionsОпции для агента SAC
rlAgentInitializationOptionsОпции для инициализации агентов обучения с подкреплением
getActorПолучите представление актера от агента обучения с подкреплением
getCriticПолучите представление критика от агента обучения с подкреплением
setActorУстановите представление актера агента обучения с подкреплением
setCriticУстановите представление критика агента обучения с подкреплением
getActionПолучите действие из агента или представления актера, данного наблюдения среды

Темы

Основы агента

Агенты обучения с подкреплением

Можно создать агента с помощью одного из нескольких стандартных алгоритмов обучения с подкреплением или описать собственного агента.

Создайте агентов Используя Reinforcement Learning Designer

В интерактивном режиме создайте или импортируйте агентов для обучения с помощью приложения Reinforcement Learning Designer.

Типы агента

Агенты Q-обучения

Создайте агентов Q-обучения для обучения с подкреплением.

Агенты SARSA

Создайте агентов SARSA для обучения с подкреплением.

Глубокие агенты Q-сети

Создайте агентов DQN для обучения с подкреплением.

Агенты градиента политики

Создайте агентов PG для обучения с подкреплением.

Глубоко детерминированные агенты градиента политики

Создайте агентов DDPG для обучения с подкреплением.

Агенты градиента политики глубокой детерминированной политики с двойной отсрочкой

Создайте агентов TD3 для обучения с подкреплением.

Агенты критика агента

Создайте агентов AC для обучения с подкреплением.

Ближайшие агенты оптимизации политики

Создайте агентов PPO для обучения с подкреплением.

Доверительные агенты оптимизации политики области

Создайте агентов TRPO для обучения с подкреплением.

Мягкие агенты критика агента

Создайте агентов SAC для обучения с подкреплением.

Пользовательские агенты

Создайте пользовательских агентов обучения с подкреплением

Создайте агентов, которые используют пользовательские алгоритмы обучения с подкреплением.