Усиливающий обучающий агент получает наблюдения и вознаграждение от окружающей среды. Используя свою политику, агент выбирает действие, основываясь на наблюдениях и вознаграждении, и отправляет действие в среду. Во время обучения агент постоянно обновляет параметры политики, основываясь на действии, наблюдениях и вознаграждении. Это позволяет агенту узнать оптимальную политику для данной среды и наградной сигнал.
Программное обеспечение Reinforcement Learning Toolbox™ предоставляет агентам изучения укрепления, которые используют несколько общих алгоритмов, таких как SARSA, DQN, DDPG и A2C. Можно также реализовать другие алгоритмы агентов, создав собственные пользовательские агенты.
Дополнительные сведения см. в разделе Усиление агентов обучения. Дополнительные сведения об определении представлений политик см. в разделе Создание представлений политик и функций значений.
| Дизайнер обучения по усилению | Проектирование, обучение и моделирование агентов обучения усилению |
Можно создать агента с помощью одного из нескольких стандартных алгоритмов обучения усилению или определить собственного пользовательского агента.
Создание агентов с помощью конструктора по обучению усилению
Интерактивное создание или импорт агентов для обучения с помощью приложения «Дизайнер обучения усиления».
Создание Q-обучающих агентов для усиления обучения.
Создание агентов SARSA для обучения усилению.
Создание агентов DQN для обучения усилению.
Создание агентов PG для обучения усилению.
Агенты градиента глубокой детерминированной политики
Создание агентов DDPG для обучения усилению.
Агенты градиента глубоких детерминированных политик с двойной задержкой
Создание TD3 агентов для обучения усилению.
Создание агентов переменного тока для обучения усилению.
Агенты оптимизации проксимальной политики
Создание агентов PPO для обучения усилению.
Создание агентов SAC для обучения усилению.
Создание пользовательских агентов обучения по усилению
Создайте агенты, использующие пользовательские алгоритмы обучения усилению.