Обучение и валидация

Обучите и симулируйте агентов обучения с подкреплением

Чтобы изучить оптимальную политику, агент обучения с подкреплением взаимодействует со средой посредством повторного эмпирического процесса. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение. Пакет Reinforcement Learning Toolbox™ обеспечивает функции для учебных агентов и проверки учебных результатов посредством симуляции. Для получения дополнительной информации смотрите, Обучают Агентов Обучения с подкреплением.

Функции

trainОбучите агента обучения с подкреплением в заданной среде
rlTrainingOptionsОпции для учебных агентов обучения с подкреплением
simСимулируйте обученного агента обучения с подкреплением в заданной среде
rlSimulationOptionsОпции для симуляции сред обучения с подкреплением

Блоки

RL AgentАгент обучения с подкреплением

Темы

Обучение и основы симуляции

Настройте агентов обучения с подкреплением

Найдите оптимальную политику по образованию вашим агентом в заданной среде.

Обучите агента обучения с подкреплением в основном мире сетки

Обучите агентов Q-обучения и SARSA решать мир сетки в MATLAB®.

Настройте агента обучения с подкреплением в среде MDP

Обучите агента обучения с подкреплением в типовой среде марковского процесса принятия решений.

Создайте среду Simulink и Обучите Агента

Обучите диспетчера, использующего обучение с подкреплением с объектом, смоделированным в Simulink® как учебная среда.

Параллельные вычисления

Обучите агента AC балансировать полюсную корзиной систему Используя параллельные вычисления

Обучите агента критика агента с помощью асинхронных параллельных вычислений.

Обучайтесь агент DQN для хранения маршрута помогают Используя параллельные вычисления

Обучите агента обучения с подкреплением автоматизированному ведущему приложению с помощью параллельных вычислений.

Обучите агентов в средах MATLAB

Обучите агента DQN балансировать полюсную корзиной систему

Обучите глубокого агента Q-образовательной-сети балансировать полюсную корзиной систему, смоделированную в MATLAB.

Обучите агента DDPG управлять двойной системой интегратора

Обучите глубокого детерминированного агента градиента политики управлять динамической системой второго порядка, смоделированной в MATLAB.

Обучите агента PG балансировать полюсную корзиной систему

Обучите агента градиента политики балансировать полюсную корзиной систему, смоделированную в MATLAB.

Обучите агента PG с базовой линией управлять двойной системой интегратора

Обучите градиент политики с базовой линией управлять двойной системой интегратора, смоделированной в MATLAB.

Обучите агента AC балансировать полюсную корзиной систему

Обучите агента критика агента балансировать полюсную корзиной систему, смоделированную в MATLAB.

Обучите агента DDPG к Swing и маятнику баланса с наблюдением изображений

Обучите агента обучения с подкреплением с помощью основанного на изображении сигнала наблюдения.

Создайте агента Используя Deep Network Designer и обучайтесь Используя наблюдения изображений

Создайте агента обучения с подкреплением с помощью приложения Deep Network Designer от Deep Learning Toolbox™.

Обучите агентов в окружениях Simulink

Обучите агента DQN к Swing и маятнику баланса

Обучите Глубокого агента Q-сети балансировать маятник, смоделированный в Simulink.

Обучите агента DDPG к Swing и маятнику баланса

Обучите глубокого детерминированного агента градиента политики балансировать маятник, смоделированный в Simulink.

Обучите агента DDPG к Swing и маятнику баланса с сигналом шины

Обучите агента обучения с подкреплением балансировать модель Simulink маятника, которая содержит наблюдения в сигнале шины.

Обучите агента DDPG к Swing и сбалансируйте полюсную корзиной систему

Обучите глубокого детерминированного агента градиента политики качаться и балансировать полюсную корзиной систему, смоделированную в Simscape™ Multibody™.

Обучите пользовательских агентов

Обучите пользовательского агента LQR

Обучите агента, который использует пользовательский алгоритм обучения с подкреплением.

Рекомендуемые примеры