Обучение и валидация

Обучите и симулируйте агентов обучения с подкреплением

Чтобы изучить оптимальную политику, агент обучения с подкреплением взаимодействует со средой посредством повторного эмпирического процесса. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение. Пакет Reinforcement Learning Toolbox™ обеспечивает функции для учебных агентов и проверки учебных результатов посредством симуляции. Для получения дополнительной информации смотрите, Обучают Агентов Обучения с подкреплением.

Приложения

Reinforcement Learning DesignerСпроектируйте, обучите и симулируйте агентов обучения с подкреплением

Функции

trainОбучите агентов обучения с подкреплением в заданной среде
rlTrainingOptionsОпции для учебных агентов обучения с подкреплением
simСимулируйте обученных агентов обучения с подкреплением в заданной среде
rlSimulationOptionsОпции для симуляции агента обучения с подкреплением в среде
inspectTrainingResultПостройте учебную информацию от предыдущего сеанса обучения

Блоки

RL AgentАгент обучения с подкреплением

Темы

Обучение и основы симуляции

Настройте агентов обучения с подкреплением

Найдите оптимальную политику по образованию вашим агентом в заданной среде.

Обучите агента обучения с подкреплением в основном мире сетки

Обучите агентов Q-обучения и SARSA решать мир сетки в MATLAB®.

Настройте агента обучения с подкреплением в среде MDP

Обучите агента обучения с подкреплением в типовой среде марковского процесса принятия решений.

Создайте среду Simulink и Обучите Агента

Обучите диспетчера, использующего обучение с подкреплением с объектом, смоделированным в Simulink® как учебная среда.

Используя приложение Reinforcement Learning Designer

Спроектируйте и обучите агента Используя Reinforcement Learning Designer

Спроектируйте и обучите агента DQN системе тележки с шестом с помощью приложения Reinforcement Learning Designer.

Задайте опции симуляции в Reinforcement Learning Designer

В интерактивном режиме задайте опции для симуляции агентов обучения с подкреплением.

Задайте опции обучения в Reinforcement Learning Designer

В интерактивном режиме задайте опции для учебных агентов обучения с подкреплением.

Используя несколько процессов и графических процессоров

Обучите агентов Используя параллельные вычисления и графические процессоры

Ускорьте обучение агента рабочими параллельными симуляциями на нескольких ядрах, графических процессорах, кластерах или ресурсах облака.

Обучите агента AC балансировать систему тележки с шестом Используя параллельные вычисления

Обучите агента критика агента с помощью асинхронных параллельных вычислений.

Обучайтесь агент DQN для хранения маршрута помогают Используя параллельные вычисления

Обучите агента обучения с подкреплением автоматизированному ведущему приложению с помощью параллельных вычислений.

Обучите агентов в средах MATLAB

Обучите агента DDPG управлять двойной системой интегратора

Обучите глубокого детерминированного агента градиента политики управлять динамической системой второго порядка, смоделированной в MATLAB.

Обучите агента PG с базовой линией управлять двойной системой интегратора

Обучите градиент политики с базовой линией управлять двойной системой интегратора, смоделированной в MATLAB.

Обучите агента DQN балансировать систему тележки с шестом

Обучите глубокого агента Q-образовательной-сети балансировать систему тележки с шестом, смоделированную в MATLAB.

Обучите агента PG балансировать систему тележки с шестом

Обучите агента градиента политики балансировать систему тележки с шестом, смоделированную в MATLAB.

Обучите агента AC балансировать систему тележки с шестом

Обучите агента критика агента балансировать систему тележки с шестом, смоделированную в MATLAB.

Обучите агента DDPG к Swing и маятнику баланса с наблюдением изображений

Обучите агента обучения с подкреплением с помощью основанного на изображении сигнала наблюдения.

Создайте агента Используя Deep Network Designer и обучайтесь Используя наблюдения изображений

Создайте агента обучения с подкреплением с помощью приложения Deep Network Designer от Deep Learning Toolbox™.

Обучите агентов в окружениях Simulink

Обучите агента DQN к Swing и маятнику баланса

Обучите Глубокого агента Q-сети балансировать маятник, смоделированный в Simulink.

Обучите агента DDPG к Swing и маятнику баланса

Обучите глубокого детерминированного агента градиента политики балансировать маятник, смоделированный в Simulink.

Обучите агента DDPG к Swing и маятнику баланса с сигналом шины

Обучите агента обучения с подкреплением балансировать модель Simulink маятника, которая содержит наблюдения в сигнале шины.

Обучите агента DDPG к Swing и системе тележки с шестом баланса

Обучите глубокого детерминированного агента градиента политики качаться и балансировать систему тележки с шестом, смоделированную в Simscape™ Multibody™.

Обучение мультиагента

Обучите несколько агентов выполнять совместную задачу

Обучите двух агентов PPO совместно перемещать объект.

Обучите несколько агентов покрытию области

Обучите трех агентов PPO исследовать мировую сеткой среду совместно-конкурентоспособным способом.

Обучите несколько агентов управлению следованием траектории

Обучите DQN, и агент DDPG, чтобы совместно выполнить адаптивный круиз-контроль и хранение маршрута помогает следовать за путем.

Сгенерируйте вознаграждения из технических требований управления

Сгенерируйте премиальную функцию от прогнозирующего диспетчера модели для сервопривода

Сгенерируйте премиальную функцию от диспетчера MPC, применился к сервоприводу.

Сгенерируйте премиальную функцию от блока Model Verification для системы бака с водой

Сгенерируйте премиальную функцию от блока верификации модели, применился к системе бака с водой.

Искусственное изучение

Подражайте контроллер MPC для хранения маршрута помогают

Обучите глубокую нейронную сеть подражать, поведение прогнозирующего контроллера модели в рамках хранения маршрута помогают системе.

Подражайте нелинейному контроллеру MPC для полета роботом

Обучите глубокую нейронную сеть подражать поведению нелинейного прогнозирующего контроллера модели для летающего робота.

Обучите агента DDPG с предварительно обученной сетью агента

Обучите агента обучения с подкреплением с помощью сети агента, которая была ранее обучена с помощью контролируемого изучения.

Пользовательские агенты и алгоритмы настройки

Обучите пользовательского агента LQR

Обучите пользовательского агента LQR.

Обучите политику обучения с подкреплением Используя пользовательский учебный цикл

Обучите политику обучения с подкреплением с помощью собственного алгоритма настройки.

Создайте агента для пользовательского алгоритма обучения с подкреплением

Создайте агента для пользовательского алгоритма обучения с подкреплением.

Рекомендуемые примеры