Чтобы изучить оптимальную политику, агент изучения укрепления взаимодействует со средой посредством повторного эмпирического процесса. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение. Программное обеспечение Reinforcement Learning Toolbox™ обеспечивает функции для учебных агентов и проверки учебных результатов посредством симуляции. Для получения дополнительной информации смотрите, что Укрепление Train Изучает Агенты.
train | Обучите агент изучения укрепления в заданной среде |
rlTrainingOptions | Опции для учебных агентов изучения укрепления |
sim | Моделируйте обученный агент изучения укрепления в заданной среде |
rlSimulationOptions | Опции для симуляции среды обучения укрепления |
RL Agent | Агент изучения укрепления |
Обучите агенты изучения укрепления
Найдите оптимальную политику по образованию вашим агентом в заданной среде.
Обучите агент изучения укрепления в основном мире сетки
Обучите Q-изучение и агенты SARSA решать мир сетки в MATLAB®.
Обучите агент изучения укрепления в среде MDP
Обучите агент изучения укрепления в типичной среде процесса принятия решений Маркова.
Создайте агент окружения Simulink и Train
Обучите диспетчера, использующего укрепление, учащееся с объектом, смоделированным в Simulink® как учебная среда.
Обучите агент AC балансировать полюсную корзиной систему Используя параллельные вычисления
Обучите агент критика агента с помощью асинхронных параллельных вычислений.
Обучайтесь агент DQN для хранения маршрута помогают Используя параллельные вычисления
Обучите агент изучения укрепления автоматизированному ведущему приложению с помощью параллельных вычислений.
Обучите агент DQN балансировать полюсную корзиной систему
Обучите глубокий агент Q-образовательной-сети балансировать полюсную корзиной систему, смоделированную в MATLAB.
Обучите агент DDPG управлять двойной системой интегратора
Обучите глубокий детерминированный агент градиента политики управлять динамической системой второго порядка, смоделированной в MATLAB.
Обучите агент PG балансировать полюсную корзиной систему
Обучите агент градиента политики балансировать полюсную корзиной систему, смоделированную в MATLAB.
Обучите агент PG с базовой линией управлять двойной системой интегратора
Обучите градиент политики с базовой линией управлять двойной системой интегратора, смоделированной в MATLAB.
Обучите агент AC балансировать полюсную корзиной систему
Обучите агент критика агента балансировать полюсную корзиной систему, смоделированную в MATLAB.
Обучите агент DDPG к Swing и маятнику баланса с наблюдением изображений
Обучите укрепление, изучив агент с помощью основанного на изображении сигнала наблюдения.
Создайте агент Используя Deep Network Designer и Train Используя наблюдения изображений
Создайте укрепление, изучив агент с помощью приложения Deep Network Designer от Deep Learning Toolbox™.
Обучите агент DQN к Swing и маятнику баланса
Обучите Глубокий агент Q-сети балансировать маятник, смоделированный в Simulink.
Обучите агент DDPG к Swing и маятнику баланса
Обучите глубокий детерминированный агент градиента политики балансировать маятник, смоделированный в Simulink.
Обучите агент DDPG к Swing и маятнику баланса с сигналом шины
Обучите агент изучения укрепления балансировать модель Simulink маятника, которая содержит наблюдения в сигнале шины.
Обучите агент DDPG к Swing и сбалансируйте полюсную корзиной систему
Обучите глубокий детерминированный агент градиента политики качаться и балансировать полюсную корзиной систему, смоделированную в Simscape™ Multibody™.
Обучите пользовательский агент LQR
Обучите агент, который использует пользовательский алгоритм изучения укрепления.