Чтобы изучить оптимальную политику, агент обучения с подкреплением взаимодействует со средой посредством повторного эмпирического процесса. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение. Пакет Reinforcement Learning Toolbox™ обеспечивает функции для учебных агентов и проверки учебных результатов посредством симуляции. Для получения дополнительной информации смотрите, Обучают Агентов Обучения с подкреплением.
train | Обучите агента обучения с подкреплением в заданной среде |
rlTrainingOptions | Опции для учебных агентов обучения с подкреплением |
sim | Симулируйте обученного агента обучения с подкреплением в заданной среде |
rlSimulationOptions | Опции для симуляции сред обучения с подкреплением |
RL Agent | Агент обучения с подкреплением |
Настройте агентов обучения с подкреплением
Найдите оптимальную политику по образованию вашим агентом в заданной среде.
Обучите агента обучения с подкреплением в основном мире сетки
Обучите агентов Q-обучения и SARSA решать мир сетки в MATLAB®.
Настройте агента обучения с подкреплением в среде MDP
Обучите агента обучения с подкреплением в типовой среде марковского процесса принятия решений.
Создайте среду Simulink и Обучите Агента
Обучите диспетчера, использующего обучение с подкреплением с объектом, смоделированным в Simulink® как учебная среда.
Обучите агента AC балансировать полюсную корзиной систему Используя параллельные вычисления
Обучите агента критика агента с помощью асинхронных параллельных вычислений.
Обучайтесь агент DQN для хранения маршрута помогают Используя параллельные вычисления
Обучите агента обучения с подкреплением автоматизированному ведущему приложению с помощью параллельных вычислений.
Обучите агента DQN балансировать полюсную корзиной систему
Обучите глубокого агента Q-образовательной-сети балансировать полюсную корзиной систему, смоделированную в MATLAB.
Обучите агента DDPG управлять двойной системой интегратора
Обучите глубокого детерминированного агента градиента политики управлять динамической системой второго порядка, смоделированной в MATLAB.
Обучите агента PG балансировать полюсную корзиной систему
Обучите агента градиента политики балансировать полюсную корзиной систему, смоделированную в MATLAB.
Обучите агента PG с базовой линией управлять двойной системой интегратора
Обучите градиент политики с базовой линией управлять двойной системой интегратора, смоделированной в MATLAB.
Обучите агента AC балансировать полюсную корзиной систему
Обучите агента критика агента балансировать полюсную корзиной систему, смоделированную в MATLAB.
Обучите агента DDPG к Swing и маятнику баланса с наблюдением изображений
Обучите агента обучения с подкреплением с помощью основанного на изображении сигнала наблюдения.
Создайте агента Используя Deep Network Designer и обучайтесь Используя наблюдения изображений
Создайте агента обучения с подкреплением с помощью приложения Deep Network Designer от Deep Learning Toolbox™.
Обучите агента DQN к Swing и маятнику баланса
Обучите Глубокого агента Q-сети балансировать маятник, смоделированный в Simulink.
Обучите агента DDPG к Swing и маятнику баланса
Обучите глубокого детерминированного агента градиента политики балансировать маятник, смоделированный в Simulink.
Обучите агента DDPG к Swing и маятнику баланса с сигналом шины
Обучите агента обучения с подкреплением балансировать модель Simulink маятника, которая содержит наблюдения в сигнале шины.
Обучите агента DDPG к Swing и сбалансируйте полюсную корзиной систему
Обучите глубокого детерминированного агента градиента политики качаться и балансировать полюсную корзиной систему, смоделированную в Simscape™ Multibody™.
Обучите пользовательского агента LQR
Обучите агента, который использует пользовательский алгоритм обучения с подкреплением.