Обучение и валидация

Обучите и симулируйте агентов обучения с подкреплением

Чтобы изучить оптимальную политику, агент обучения с подкреплением взаимодействует со средой посредством повторного эмпирического процесса. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение. Пакет Reinforcement Learning Toolbox™ обеспечивает функции для учебных агентов и проверки учебных результатов посредством симуляции. Для получения дополнительной информации смотрите, Обучают Агентов Обучения с подкреплением.

Функции

trainОбучите агентов обучения с подкреплением в заданной среде
rlTrainingOptionsОпции для учебных агентов обучения с подкреплением
simСимулируйте обученных агентов обучения с подкреплением в заданной среде
rlSimulationOptionsОпции для симуляции агента обучения с подкреплением в среде

Блоки

RL AgentАгент обучения с подкреплением

Темы

Обучение и основы симуляции

Настройте агентов обучения с подкреплением

Найдите оптимальную политику по образованию вашим агентом в заданной среде.

Обучите агента обучения с подкреплением в основном мире сетки

Обучите агентов Q-обучения и SARSA решать мир сетки в MATLAB®.

Настройте агента обучения с подкреплением в среде MDP

Обучите агента обучения с подкреплением в типовой среде марковского процесса принятия решений.

Создайте среду Simulink и Обучите Агента

Обучите диспетчера, использующего обучение с подкреплением с объектом, смоделированным в Simulink® как учебная среда.

Параллельные вычисления

Обучите агента AC балансировать систему тележки с шестом Используя параллельные вычисления

Обучите агента критика агента с помощью асинхронных параллельных вычислений.

Обучайтесь агент DQN для хранения маршрута помогают Используя параллельные вычисления

Обучите агента обучения с подкреплением автоматизированному ведущему приложению с помощью параллельных вычислений.

Обучите агентов в средах MATLAB

Обучите агента DDPG управлять двойной системой интегратора

Обучите глубокого детерминированного агента градиента политики управлять динамической системой второго порядка, смоделированной в MATLAB.

Обучите агента PG с базовой линией управлять двойной системой интегратора

Обучите градиент политики с базовой линией управлять двойной системой интегратора, смоделированной в MATLAB.

Обучите агента DQN балансировать систему тележки с шестом

Обучите глубокого агента Q-образовательной-сети балансировать систему тележки с шестом, смоделированную в MATLAB.

Обучите агента PG балансировать систему тележки с шестом

Обучите агента градиента политики балансировать систему тележки с шестом, смоделированную в MATLAB.

Обучите агента AC балансировать систему тележки с шестом

Обучите агента критика агента балансировать систему тележки с шестом, смоделированную в MATLAB.

Обучите агента DDPG к Swing и маятнику баланса с наблюдением изображений

Обучите агента обучения с подкреплением с помощью основанного на изображении сигнала наблюдения.

Создайте агента Используя Deep Network Designer и обучайтесь Используя наблюдения изображений

Создайте агента обучения с подкреплением с помощью приложения Deep Network Designer от Deep Learning Toolbox™.

Обучите агентов в окружениях Simulink

Обучите агента DQN к Swing и маятнику баланса

Обучите Глубокого агента Q-сети балансировать маятник, смоделированный в Simulink.

Обучите агента DDPG к Swing и маятнику баланса

Обучите глубокого детерминированного агента градиента политики балансировать маятник, смоделированный в Simulink.

Обучите агента DDPG к Swing и маятнику баланса с сигналом шины

Обучите агента обучения с подкреплением балансировать модель Simulink маятника, которая содержит наблюдения в сигнале шины.

Обучите агента DDPG к Swing и системе тележки с шестом баланса

Обучите глубокого детерминированного агента градиента политики качаться и балансировать систему тележки с шестом, смоделированную в Simscape™ Multibody™.

Обучение мультиагента

Обучите несколько агентов выполнять совместную задачу

Обучите двух агентов PPO совместно перемещать объект.

Обучите несколько агентов покрытию области

Обучите трех агентов PPO исследовать мировую сеткой среду совместно-конкурентоспособным способом.

Обучите несколько агентов управлению следованием траектории

Обучите DQN, и агент DDPG, чтобы совместно выполнить адаптивный круиз-контроль и хранение маршрута помогает следовать за путем.

Искусственное изучение

Подражайте контроллер MPC для хранения маршрута помогают

Обучите глубокую нейронную сеть подражать поведению прогнозирующего контроллера модели.

Подражайте нелинейному контроллеру MPC для полета роботом

Обучите глубокую нейронную сеть подражать поведению нелинейного прогнозирующего контроллера модели.

Обучите агента DDPG с предварительно обученной сетью агента

Обучите агента обучения с подкреплением с помощью сети агента, которая была ранее обучена с помощью контролируемого изучения.

Пользовательские агенты и алгоритмы настройки

Обучите пользовательского агента LQR

Обучите пользовательского агента LQR.

Обучите политику обучения с подкреплением Используя пользовательский учебный цикл

Обучите политику обучения с подкреплением с помощью собственного алгоритма настройки.

Создайте агента для пользовательского алгоритма обучения с подкреплением

Создайте агента для пользовательского алгоритма обучения с подкреплением.

Рекомендуемые примеры

Для просмотра документации необходимо авторизоваться на сайте