Агенты изучения укрепления

Цель укрепления, учащегося, состоит в том, чтобы обучить агент выполнять задачу в неопределенной среде. Агент получает наблюдения и вознаграждение от среды и отправляет действия в среду. Вознаграждение является мерой того, насколько успешный действие относительно завершения цели задачи.

Агент содержит два компонента: политика и алгоритм изучения.

  • Политика является отображением, которое выбирает действия на основе наблюдений от среды. Как правило, политика является функцией approximator с настраиваемыми параметрами, такими как глубокая нейронная сеть.

  • Алгоритм изучения постоянно обновляет параметры политики на основе действий, наблюдений и вознаграждений. Цель алгоритма изучения состоит в том, чтобы найти оптимальную политику, которая максимизирует совокупное вознаграждение, полученное во время задачи.

В зависимости от алгоритма изучения агент поддерживает, один или несколько параметризовал функцию approximators для обучения политика. Существует два типа функции approximators.

  • Критики — Для данного наблюдения и действия, критик находит ожидаемое значение долгосрочного будущего вознаграждения за задачу.

  • Агенты — Для данного наблюдения, агент находит действие, которое максимизирует долгосрочное будущее вознаграждение

Для получения дополнительной информации о создании агента и функции критика approximators, смотрите, Создают политику и Представления Функции Значения.

Встроенные агенты

Программное обеспечение Reinforcement Learning Toolbox™ обеспечивает следующие встроенные агенты. Каждый агент может быть обучен в средах с заданным действием и пространствами наблюдений.

АгентНаблюденияДействия
Агенты Q-изученияДискретныйДискретный
Агенты SARSAДискретныйДискретный
Глубокие агенты Q-сетиНепрерывный или дискретныйДискретный
Глубоко детерминированные агенты градиента политикиНепрерывный или дискретныйНепрерывный
Агенты градиента политикиНепрерывный или дискретныйДискретный
Агенты критика агентаНепрерывный или дискретныйДискретный

Пользовательские агенты

Можно также обучить политики с помощью других алгоритмов изучения путем создания пользовательского агента. Для этого вы создаете подкласс пользовательского класса агента, задавая поведение агента с помощью набора необходимых и дополнительных методов. Для получения дополнительной информации смотрите Пользовательские Агенты.

Смотрите также

| | | | |

Похожие темы

Для просмотра документации необходимо авторизоваться на сайте