Обучение с подкреплением Используя глубокие нейронные сети

Обучите агентов глубокой нейронной сети путем взаимодействия с неизвестной динамической средой

Обучение с подкреплением является направленным на достижение цели вычислительным подходом, где агент учится выполнять задачу путем взаимодействия с неизвестной динамической средой. Во время обучения алгоритм обучения обновляет параметры политики агента. Цель алгоритма обучения состоит в том, чтобы найти оптимальную политику, которая максимизирует долгосрочное вознаграждение, полученное во время задачи.

В зависимости от типа агента политика представлена одним или несколькими представления функции ценности и политика. Можно реализовать эти представления с помощью глубоких нейронных сетей. Можно затем обучить эти сети с помощью пакета Reinforcement Learning Toolbox™.

Для получения дополнительной информации смотрите, что Обучение с подкреплением Использует Глубокие нейронные сети.

Темы

Обучение с подкреплением Используя глубокие нейронные сети

Обучение с подкреплением является направленным на достижение цели вычислительным подходом, где компьютер учится выполнять задачу путем взаимодействия с неизвестной динамической средой.

Создайте среду Simulink и Обучите Агента

Обучите диспетчера, использующего обучение с подкреплением с объектом, смоделированным в Simulink® как учебная среда.

Создайте агента Используя Deep Network Designer и обучайтесь Используя наблюдения изображений

Создайте агента обучения с подкреплением с помощью приложения Deep Network Designer от Deep Learning Toolbox™.

Обучите агента DDPG к Swing и маятнику баланса с наблюдением изображений

Обучите агента обучения с подкреплением с помощью основанного на изображении сигнала наблюдения.

Обучайтесь агент DQN для хранения маршрута помогают Используя параллельные вычисления

Обучайтесь агент обучения с подкреплением для хранения маршрута помогают приложению.

Подражайте контроллер MPC для хранения маршрута помогают

Обучите глубокую нейронную сеть подражать поведению прогнозирующего контроллера модели.

Рекомендуемые примеры

Для просмотра документации необходимо авторизоваться на сайте