Обучение и валидация

Обучите и симулируйте агентов обучения с подкреплением

Чтобы изучить оптимальную политику, агент обучения с подкреплением взаимодействует со средой посредством повторного эмпирического процесса. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение. Пакет Reinforcement Learning Toolbox™ обеспечивает функции для учебных агентов и проверки учебных результатов посредством симуляции. Для получения дополнительной информации смотрите, Обучают Агентов Обучения с подкреплением.

Функции

`train`	Обучите агентов обучения с подкреплением в заданной среде
`rlTrainingOptions`	Опции для учебных агентов обучения с подкреплением
`sim`	Симулируйте обученных агентов обучения с подкреплением в заданной среде
`rlSimulationOptions`	Опции для симуляции агента обучения с подкреплением в среде

Блоки

RL Agent

Агент обучения с подкреплением

Темы

Обучение и основы симуляции

Настройте агентов обучения с подкреплением

Найдите оптимальную политику по образованию вашим агентом в заданной среде.

Обучите агента обучения с подкреплением в основном мире сетки

Обучите агентов Q-обучения и SARSA решать мир сетки в MATLAB^®.

Настройте агента обучения с подкреплением в среде MDP

Обучите агента обучения с подкреплением в типовой среде марковского процесса принятия решений.

Создайте среду Simulink и Обучите Агента

Обучите диспетчера, использующего обучение с подкреплением с объектом, смоделированным в Simulink^® как учебная среда.

Параллельные вычисления

Обучите агента AC балансировать систему тележки с шестом Используя параллельные вычисления

Обучите агента критика агента с помощью асинхронных параллельных вычислений.

Обучайтесь агент DQN для хранения маршрута помогают Используя параллельные вычисления

Обучите агента обучения с подкреплением автоматизированному ведущему приложению с помощью параллельных вычислений.

Обучите агентов в средах MATLAB

Обучите агента DDPG управлять двойной системой интегратора

Обучите глубокого детерминированного агента градиента политики управлять динамической системой второго порядка, смоделированной в MATLAB.

Обучите агента PG с базовой линией управлять двойной системой интегратора

Обучите градиент политики с базовой линией управлять двойной системой интегратора, смоделированной в MATLAB.

Обучите агента DQN балансировать систему тележки с шестом

Обучите глубокого агента Q-образовательной-сети балансировать систему тележки с шестом, смоделированную в MATLAB.

Обучите агента PG балансировать систему тележки с шестом

Обучите агента градиента политики балансировать систему тележки с шестом, смоделированную в MATLAB.

Обучите агента AC балансировать систему тележки с шестом

Обучите агента критика агента балансировать систему тележки с шестом, смоделированную в MATLAB.

Обучите агента DDPG к Swing и маятнику баланса с наблюдением изображений

Обучите агента обучения с подкреплением с помощью основанного на изображении сигнала наблюдения.

Создайте агента Используя Deep Network Designer и обучайтесь Используя наблюдения изображений

Создайте агента обучения с подкреплением с помощью приложения Deep Network Designer от Deep Learning Toolbox™.

Обучите агентов в окружениях Simulink

Обучите агента DQN к Swing и маятнику баланса

Обучите Глубокого агента Q-сети балансировать маятник, смоделированный в Simulink.

Обучите агента DDPG к Swing и маятнику баланса

Обучите глубокого детерминированного агента градиента политики балансировать маятник, смоделированный в Simulink.

Обучите агента DDPG к Swing и маятнику баланса с сигналом шины

Обучите агента обучения с подкреплением балансировать модель Simulink маятника, которая содержит наблюдения в сигнале шины.

Обучите агента DDPG к Swing и системе тележки с шестом баланса

Обучите глубокого детерминированного агента градиента политики качаться и балансировать систему тележки с шестом, смоделированную в Simscape™ Multibody™.