Агент обучения с подкреплением получает наблюдения и вознаграждение от окружения. Используя свою политику, агент выбирает действие на основе наблюдений и вознаграждения и отправляет действие в окружение. Во время обучения агент постоянно обновляет параметры политики на основе действия, наблюдений и вознаграждения. Это позволяет агенту научиться оптимальной политике при заданных окружении и сигнале вознаграждения.
Пакет Reinforcement Learning Toolbox™ предоставляет агентов обучения с подкреплением, которые используют несколько общих алгоритмов, таких как SARSA, DQN, DDPG и A2C. Можно также реализовать другие алгоритмы агента, создав собственных пользовательских агентов.
Для получения дополнительной информации см. Раздел «Агенты обучения с подкреплением». Дополнительные сведения об определении представлений политики см. в разделах Создание представлений политики и функции ценности.
Reinforcement Learning Designer | Проектируйте, обучайте и симулируйте агентов обучения с подкреплением |
Агенты обучения с подкреплением
Можно создать агента с помощью одного из нескольких стандартных алгоритмов обучения с подкреплением или описать собственного агента.
Создайте агентов с помощью Reinforcement Learning Designer
Интерактивно создайте или импортируйте агентов для обучения с помощью приложения Reinforcement Learning Designer.
Создайте агентов Q-обучения для обучения с подкреплением.
Создайте агентов SARSA для обучения с подкреплением.
Создайте агентов DQN для обучения с подкреплением.
Создайте агентов PG для обучения с подкреплением.
Глубокие детерминированные агенты градиента политики
Создайте агентов DDPG для обучения с подкреплением.
Двухдневные глубокие детерминированные агенты градиента политики
Создайте агентов TD3 для обучения с подкреплением.
Создайте агентов AC для обучения с подкреплением.
Проксимальные агенты оптимизации политики
Создайте агентов PPO для обучения с подкреплением.
Создайте агентов SAC для обучения с подкреплением.
Создайте пользовательских агентов обучения с подкреплением
Создайте агентов, которые используют пользовательские алгоритмы обучения с подкреплением.