exponenta event banner

Усиление обучения с использованием глубоких нейронных сетей

Обучение агентов глубоких нейронных сетей путем взаимодействия с неизвестной динамической средой

Обучение усилению - это целевой вычислительный подход, при котором агент учится выполнять задачу, взаимодействуя с неизвестной динамической средой. Во время обучения алгоритм обучения обновляет параметры политики агента. Целью алгоритма обучения является поиск оптимальной политики, которая максимизирует долгосрочное вознаграждение, полученное во время выполнения задачи.

В зависимости от типа агента политика представлена одним или несколькими представлениями политик и функций значений. Реализовать эти представления можно с помощью глубоких нейронных сетей. Затем эти сети можно обучить с помощью программного обеспечения Toolbox™ обучения усилению.

Дополнительные сведения см. в разделе Обучение усилению с использованием глубоких нейронных сетей.

Темы

Усиление обучения с использованием глубоких нейронных сетей

Обучение усилению - это целевой вычислительный подход, при котором компьютер учится выполнять задачу, взаимодействуя с неизвестной динамической средой.

Создание среды Simulink и агента подготовки

Обучение контроллера с использованием обучения усилению с помощью установки, смоделированной в Simulink ® в качестве учебной среды.

Создание агента с помощью Deep Network Designer и обучение с помощью наблюдений за изображениями

Создайте агент обучения усиления с помощью приложения Deep Network Designer из Toolbox™ Deep Learning.

Обучить агента DDPG качаться вверх и балансировать маятник с наблюдением изображения

Обучение агента обучения усилению с использованием сигнала наблюдения на основе изображения.

Подготовка агента DQN для помощи по поддержанию полосы движения с использованием параллельных вычислений

Подготовка обучающего агента по усилению для приложения помощи по поддержанию полосы движения.

Имитация контроллера MPC для помощи по поддержанию полосы движения

Обучить глубокую нейронную сеть имитировать поведение модельного прогностического контроллера.

Характерные примеры