Обучение и валидация

Обучите и симулируйте агентов обучения с подкреплением

Чтобы изучить оптимальную политику, агент обучения с подкреплением взаимодействует со средой посредством повторного эмпирического процесса. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение. Пакет Reinforcement Learning Toolbox™ обеспечивает функции для учебных агентов и проверки учебных результатов посредством симуляции. Для получения дополнительной информации смотрите, Обучают Агентов Обучения с подкреплением.

Приложения

Reinforcement Learning Designer

Спроектируйте, обучите и симулируйте агентов обучения с подкреплением

Функции

`train`	Обучите агентов обучения с подкреплением в заданной среде
`rlTrainingOptions`	Опции для учебных агентов обучения с подкреплением
`sim`	Симулируйте обученных агентов обучения с подкреплением в заданной среде
`rlSimulationOptions`	Опции для симуляции агента обучения с подкреплением в среде
`inspectTrainingResult`	Постройте учебную информацию от предыдущего сеанса обучения

Блоки

RL Agent

Агент обучения с подкреплением

Темы

Обучение и основы симуляции

Настройте агентов обучения с подкреплением

Найдите оптимальную политику по образованию вашим агентом в заданной среде.

Обучите агента обучения с подкреплением в основном мире сетки

Обучите агентов Q-обучения и SARSA решать мир сетки в MATLAB^®.

Настройте агента обучения с подкреплением в среде MDP

Обучите агента обучения с подкреплением в типовой среде марковского процесса принятия решений.

Создайте среду Simulink и Обучите Агента

Обучите диспетчера, использующего обучение с подкреплением с объектом, смоделированным в Simulink^® как учебная среда.

Используя приложение Reinforcement Learning Designer

Спроектируйте и обучите агента Используя Reinforcement Learning Designer

Спроектируйте и обучите агента DQN системе тележки с шестом с помощью приложения Reinforcement Learning Designer.

Задайте опции симуляции в Reinforcement Learning Designer

В интерактивном режиме задайте опции для симуляции агентов обучения с подкреплением.

Задайте опции обучения в Reinforcement Learning Designer

В интерактивном режиме задайте опции для учебных агентов обучения с подкреплением.

Используя несколько процессов и графических процессоров

Обучите агентов Используя параллельные вычисления и графические процессоры

Ускорьте обучение агента рабочими параллельными симуляциями на нескольких ядрах, графических процессорах, кластерах или ресурсах облака.

Обучите агента AC балансировать систему тележки с шестом Используя параллельные вычисления

Обучите агента критика агента с помощью асинхронных параллельных вычислений.

Обучайтесь агент DQN для хранения маршрута помогают Используя параллельные вычисления

Обучите агента обучения с подкреплением автоматизированному ведущему приложению с помощью параллельных вычислений.

Обучите агентов в средах MATLAB

Обучите агента DDPG управлять двойной системой интегратора

Обучите глубокого детерминированного агента градиента политики управлять динамической системой второго порядка, смоделированной в MATLAB.

Обучите агента PG с базовой линией управлять двойной системой интегратора

Обучите градиент политики с базовой линией управлять двойной системой интегратора, смоделированной в MATLAB.

Обучите агента DQN балансировать систему тележки с шестом

Обучите глубокого агента Q-образовательной-сети балансировать систему тележки с шестом, смоделированную в MATLAB.

Обучите агента PG балансировать систему тележки с шестом

Обучите агента градиента политики балансировать систему тележки с шестом, смоделированную в MATLAB.

Обучите агента AC балансировать систему тележки с шестом

Обучите агента критика агента балансировать систему тележки с шестом, смоделированную в MATLAB.

Обучите агента DDPG к Swing и маятнику баланса с наблюдением изображений

Обучите агента обучения с подкреплением с помощью основанного на изображении сигнала наблюдения.

Создайте агента Используя Deep Network Designer и обучайтесь Используя наблюдения изображений

Создайте агента обучения с подкреплением с помощью приложения Deep Network Designer от Deep Learning Toolbox™.

Обучите агентов в окружениях Simulink

Обучите агента DQN к Swing и маятнику баланса

Обучите Глубокого агента Q-сети балансировать маятник, смоделированный в Simulink.

Обучите агента DDPG к Swing и маятнику баланса

Обучите глубокого детерминированного агента градиента политики балансировать маятник, смоделированный в Simulink.

Обучите агента DDPG к Swing и маятнику баланса с сигналом шины

Обучите агента обучения с подкреплением балансировать модель Simulink маятника, которая содержит наблюдения в сигнале шины.

Обучите агента DDPG к Swing и системе тележки с шестом баланса

Обучите глубокого детерминированного агента градиента политики качаться и балансировать систему тележки с шестом, смоделированную в Simscape™ Multibody™.

Обучение мультиагента

Обучите несколько агентов выполнять совместную задачу

Обучите двух агентов PPO совместно перемещать объект.

Обучите несколько агентов покрытию области

Обучите трех агентов PPO исследовать мировую сеткой среду совместно-конкурентоспособным способом.

Обучите несколько агентов управлению следованием траектории

Обучите DQN, и агент DDPG, чтобы совместно выполнить адаптивный круиз-контроль и хранение маршрута помогает следовать за путем.

Сгенерируйте вознаграждения из технических требований управления

Сгенерируйте премиальную функцию от прогнозирующего диспетчера модели для сервопривода

Сгенерируйте премиальную функцию от диспетчера MPC, применился к сервоприводу.

Сгенерируйте премиальную функцию от блока Model Verification для системы бака с водой

Сгенерируйте премиальную функцию от блока верификации модели, применился к системе бака с водой.

Искусственное изучение

Подражайте контроллер MPC для хранения маршрута помогают

Обучите глубокую нейронную сеть подражать, поведение прогнозирующего контроллера модели в рамках хранения маршрута помогают системе.

Подражайте нелинейному контроллеру MPC для полета роботом

Обучите глубокую нейронную сеть подражать поведению нелинейного прогнозирующего контроллера модели для летающего робота.

Обучите агента DDPG с предварительно обученной сетью агента

Обучите агента обучения с подкреплением с помощью сети агента, которая была ранее обучена с помощью контролируемого изучения.

Пользовательские агенты и алгоритмы настройки

Обучите пользовательского агента LQR

Обучите пользовательского агента LQR.

Обучите политику обучения с подкреплением Используя пользовательский учебный цикл

Обучите политику обучения с подкреплением с помощью собственного алгоритма настройки.

Создайте агента для пользовательского алгоритма обучения с подкреплением

Создайте агента для пользовательского алгоритма обучения с подкреплением.

Рекомендуемые примеры

Tune PI Controller using Reinforcement Learning

Настройте ПИ-контроллер с помощью Обучения с подкреплением

Настройте усиления ПИ-контроллера с помощью агента обучения с подкреплением.

Скрипт Open Live Script

Обучите агента TD3 управлению PMSM

Обучите агента обучения с подкреплением управлять токами в постоянном магните синхронный двигатель.

Скрипт Open Live Script

Water Distribution System Scheduling Using Reinforcement Learning

Водное планирование системы распределения Используя обучение с подкреплением

Обучите агента DQN оптимально активировать насосы в водной системе распределения.

Скрипт Open Live Script

Train DDPG Agent to Control Flying Robot

Обучите агента DDPG управлять летающим роботом

Обучите агента обучения с подкреплением управлять летающей моделью робота.

Скрипт Open Live Script

Обучите агента PPO сажать ракету

Обучите агента обучения с подкреплением сажать ракету.

Скрипт Open Live Script

Train Biped Robot to Walk Using Reinforcement Learning Agents

Обучите двуногого робота идти Используя агентов обучения с подкреплением

Обучите агента обучения с подкреплением управлять двуногим, обойдя робота, смоделированного в Simscape Multibody.

Скрипт Open Live Script

Quadruped Robot Locomotion Using DDPG Agent

Передвижение робота четвероногого животного Используя агента DDPG

Обучите агента обучения с подкреплением управлять четвероногим животным, обойдя робота, смоделированного в Simscape Multibody.

Скрипт Open Live Script

Обучайтесь агент DQN для хранения маршрута помогают

Обучайтесь агент обучения с подкреплением для хранения маршрута помогают приложению.

Скрипт Open Live Script

Train DDPG Agent for Adaptive Cruise Control

Обучите агента DDPG адаптивному круиз-контролю

Обучите агента обучения с подкреплением адаптивному приложению круиз-контроля.

Скрипт Open Live Script

Train DDPG Agent for Path-Following Control

Обучите агента DDPG управлению следования траектории

Обучите агента обучения с подкреплением маршруту после приложения.

Скрипт Open Live Script

Train PPO Agent for Automatic Parking Valet

Обучите агента PPO автоматическому камердинеру парковки

Обучите агента обучения с подкреплением парковать автомобиль на открытом парковочном месте.

Скрипт Open Live Script

Train Reinforcement Learning Agent with Constraint Enforcement

Обучите агента обучения с подкреплением с ограничительным осуществлением

Обучите агента обучения с подкреплением с действиями, ограниченными с помощью блока Constraint Enforcement.

Скрипт Open Live Script

Model-Based Reinforcement Learning Using Custom Training Loop

Основанное на модели обучение с подкреплением Используя пользовательский учебный цикл

Основанный на модели агент обучения с подкреплением изучает модель своей среды, которую он может использовать, чтобы сгенерировать дополнительные события для обучения.

Скрипт Open Live Script

Документация

Обучение и валидация

Приложения

Функции

Блоки

Темы

Обучение и основы симуляции

Используя приложение Reinforcement Learning Designer

Используя несколько процессов и графических процессоров

Обучите агентов в средах MATLAB

Обучите агентов в окружениях Simulink

Обучение мультиагента

Сгенерируйте вознаграждения из технических требований управления

Искусственное изучение

Пользовательские агенты и алгоритмы настройки

Рекомендуемые примеры

Настройте ПИ-контроллер с помощью Обучения с подкреплением

Обучите агента TD3 управлению PMSM

Водное планирование системы распределения Используя обучение с подкреплением

Обучите агента DDPG управлять летающим роботом

Обучите агента PPO сажать ракету

Обучите двуногого робота идти Используя агентов обучения с подкреплением

Передвижение робота четвероногого животного Используя агента DDPG

Обучайтесь агент DQN для хранения маршрута помогают

Обучите агента DDPG адаптивному круиз-контролю

Обучите агента DDPG управлению следования траектории

Обучите агента PPO автоматическому камердинеру парковки

Обучите агента обучения с подкреплением с ограничительным осуществлением

Основанное на модели обучение с подкреплением Используя пользовательский учебный цикл

Документация Reinforcement Learning Toolbox

Поддержка