Обучение с подкреплением является направленным на достижение цели вычислительным подходом, где агент учится выполнять задачу путем взаимодействия с неизвестным динамическим окружением. Во время обучения алгоритм обучения обновляет параметры политики агента. Цель алгоритма обучения состоит в том, чтобы найти оптимальную политику, которая максимизирует долгосрочное вознаграждение, полученное во время задачи.
В зависимости от типа агента политика представлена одной или несколькими представлениями политики и функции ценности. Можно реализовать эти представления с помощью глубоких нейронных сетей. Затем можно обучить эти сети с помощью пакета Reinforcement Learning Toolbox™.
Для получения дополнительной информации см. «Обучение с подкреплением с использованием глубоких нейронных сетей».
Обучение с подкреплением с использованием глубоких нейронных сетей
Обучение с подкреплением является направленным на достижение цели вычислительным подходом, в котором компьютер учится выполнять задачу путем взаимодействия с неизвестным динамическим окружением.
Создайте окружение Simulink и Обучите Агента
Обучите контроллер, используя обучение с подкреплением для объекта, смоделированного в Simulink® как окружение обучения.
Создайте агента с помощью Deep Network Designer и обучите с использованием наблюдений изображений
Создайте агента обучения с подкреплением с помощью приложения Deep Network Designer из Deep Learning Toolbox™.
Обучите агента DDPG качаться вверх и балансировать маятник с наблюдением изображений
Обучите агента обучения с подкреплением, используя основанный на изображении сигнал наблюдения.
Обучите агента DQN для поддержки маршрута с помощью параллельных вычислений
Обучите агента обучения с подкреплением для вспомогательного приложения по хранению маршрутов.
Имитируйте контроллер MPC для помощи в поддержании маршрута
Обучите глубокую нейронную сеть, чтобы имитировать поведение прогнозирующего контроллера модели.