Обучение и валидация

Обучите и симулируйте агентов обучения с подкреплением

Чтобы узнать оптимальную политику, агент обучения с подкреплением взаимодействует со окружением через повторный процесс проб и ошибок. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение. Пакет Reinforcement Learning Toolbox™ обеспечивает функции для настройки агентов и валидации результатов обучения посредством симуляции. Для получения дополнительной информации см. Train агентов обучения с подкреплением».

Приложения

Reinforcement Learning DesignerПроектируйте, обучайте и симулируйте агентов обучения с подкреплением

Функции

trainОбучите агентов обучения с подкреплением в заданном окружении
rlTrainingOptionsОпции для настройки агентов обучения с подкреплением
simСимулируйте обученных агентов обучения с подкреплением в заданном окружении
rlSimulationOptionsОпции для симуляции агента обучения с подкреплением в окружении
inspectTrainingResultПостройте график информации о обучении из предыдущего сеанса обучения

Блоки

RL AgentАгент обучения с подкреплением

Темы

Основы обучения и симуляции

Настройте агентов обучения с подкреплением

Найдите оптимальную политику путем настройки агента в заданном окружении.

Обучите агента обучения с подкреплением в основном мире сетки

Обучите агентов Q-обучения и SARSA решать мир сетки в MATLAB®.

Обучите агента обучения с подкреплением в среде MDP

Обучите агента обучения с подкреплением в общем окружении марковского процесса принятия решений.

Создайте окружение Simulink и Обучите Агента

Обучите контроллер, используя обучение с подкреплением для объекта, смоделированного в Simulink® как окружение обучения.

Использование приложения Reinforcement Learning Designer

Проектируйте и обучайте агента, используя Reinforcement Learning Designer

Разработайте и обучите агента DQN для системы тележки с шестом с помощью приложения Reinforcement Learning Designer.

Задайте опции симуляции в Reinforcement Learning Designer

В интерактивном режиме задайте опции для симуляции агентов обучения с подкреплением.

Задайте опции обучения в Reinforcement Learning Designer

Интерактивно задайте опции для настройки агентов обучения с подкреплением.

Использование нескольких процессов и графических процессоров

Обучите агентов, используя параллельные вычисления и графические процессоры

Ускорьте обучение агентов, запустив параллельные симуляции на нескольких ядрах, графических процессорах, кластерах или облачных ресурсах.

Обучите агента переменного тока балансировать систему тележки с шестом с помощью параллельных вычислений

Обучите агента актёра-критика с помощью асинхронных параллельных вычислений.

Обучите агента DQN для поддержки маршрута с помощью параллельных вычислений

Обучите агента обучения с подкреплением для беспилотного приложения с помощью параллельных вычислений.

Обучите агентов в окружениях MATLAB

Обучите агента DDPG управлять системой двойного интегратора

Обучите агента глубокого детерминированного градиента политики для управления динамической системой второго порядка, смоделированной в MATLAB.

Обучите агента PG с базовым уровнем для управления системой Double Integrator

Обучите градиент политики с базовой линией, чтобы управлять системой двойного интегратора, смоделированной в MATLAB.

Обучите агента DQN балансировать систему тележки с шестом

Обучите агента глубокой сети Q-обучения для балансировки системы тележки с шестом, смоделированной в MATLAB.

Обучите агента PG балансировке системы тележки с шестом

Обучите агента градиента политики для балансировки системы тележки с шестом, смоделированной в MATLAB.

Обучите агента переменного тока балансировать систему тележки с шестом

Обучите агента актёра-критика балансировать систему тележки с шестом, смоделированную в MATLAB.

Обучите агента DDPG качаться вверх и балансировать маятник с наблюдением изображений

Обучите агента обучения с подкреплением, используя основанный на изображении сигнал наблюдения.

Создайте агента с помощью Deep Network Designer и обучите с использованием наблюдений изображений

Создайте агента обучения с подкреплением с помощью приложения Deep Network Designer из Deep Learning Toolbox™.

Обучите агентов в окружениях Simulink

Обучите агента DQN качаться вверх и балансировать маятник

Обучите агента глубокой Q-сети для балансировки маятника, смоделированного в Simulink.

Обучите агента DDPG качаться вверх и балансировать маятник

Обучите агента глубокого детерминированного градиента политики, чтобы сбалансировать маятник, смоделированный в Simulink.

Обучите агента DDPG качаться вверх и балансировать маятник с сигналом шины

Обучите агента обучения с подкреплением балансировать модель Simulink маятника, которая содержит наблюдения в сигнале шины.

Обучите агента DDPG качаться вверх и балансировать систему тележки с шестом

Обучите агента глубокого детерминированного градиента политики для качания вверх и балансировки системы тележки с шестом, смоделированной в Simscape™ Multibody™.

Мультиагент

Обучите нескольких агентов выполнять совместную задачу

Обучите двух агентов PPO совместному перемещению объекта.

Обучите нескольких агентов для покрытия области

Обучите трех агентов PPO исследовать окружение в мире сетки на основе совместной конкуренции.

Обучите несколько агентов для пути, следующего за управлением

Обучите DQN и агента DDPG для совместного выполнения адаптивного круиз-контроля и поддержания маршрута для следования по пути.

Обучение имитации

Имитируйте контроллер MPC для помощи в поддержании маршрута

Обучите глубокую нейронную сеть, чтобы имитировать поведение прогнозирующего контроллера модели.

Имитируйте нелинейный контроллер MPC для летающего робота

Обучите глубокую нейронную сеть, чтобы имитировать поведение нелинейного прогнозирующего контроллера модели.

Обучите агента DDPG предварительно обученной сетью актёра

Обучите агента обучения с подкреплением с помощью сети актёра, которая ранее была обучена с помощью контролируемого обучения.

Пользовательские агенты и алгоритмы настройки

Обучите пользовательского агента LQR

Обучите пользовательского агента LQR.

Настройте политику обучения с подкреплением с помощью пользовательского цикла обучения

Обучите политику обучения с подкреплением с помощью собственного алгоритма настройки.

Создайте агента для пользовательского алгоритма обучения с подкреплением

Создайте агента для пользовательского алгоритма обучения с подкреплением.

Рекомендуемые примеры

Для просмотра документации необходимо авторизоваться на сайте