rlQAgent

Агент обучения с подкреплением Q-изучения

Описание

Алгоритм Q-обучения является онлайновым методом обучения с подкреплением без моделей и без политики. Агент Q-обучения это агент обучения с подкреплением на базе ценностей, который обучает критика оценивать текущее или будущее вознаграждения.

Для получения дополнительной информации об агентах Q-обучения смотрите Агентов Q-обучения.

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Создание

Синтаксис

agent = rlQAgent(critic,agentOptions)

Описание

пример

agent = rlQAgent(critic,agentOptions) создает агента Q-обучения с заданной сетью критика и устанавливает AgentOptions свойство.

Входные параметры

развернуть все

`critic` — Представление сети Critic
`rlQValueRepresentation` объект

Представление сети Critic в виде rlQValueRepresentation объект. Для получения дополнительной информации о создании представлений критика смотрите, Создают Представления Функции ценности и политика.

Свойства

развернуть все

`AgentOptions` — Опции агента
`rlQAgentOptions` объект

Опции агента в виде rlQAgentOptions объект.

Функции объекта

`train`	Обучите агентов обучения с подкреплением в заданной среде
`sim`	Симулируйте обученных агентов обучения с подкреплением в заданной среде
`getAction`	Получите действие из агента или представления актера, данного наблюдения среды
`getActor`	Получите представление актера от агента обучения с подкреплением
`setActor`	Установите представление актера агента обучения с подкреплением
`getCritic`	Получите представление критика от агента обучения с подкреплением
`setCritic`	Установите представление критика агента обучения с подкреплением
`generatePolicyFunction`	Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением

Примеры

свернуть все

Создайте агента Q-обучения

Скрипт Open Live Script

Создайте интерфейс среды.

env = rlPredefinedEnv("BasicGridWorld");

Создайте представление Q-функции-ценности критика с помощью Q-таблицы, выведенной из спецификаций наблюдений среды и спецификаций действия.

qTable = rlTable(getObservationInfo(env),getActionInfo(env));
critic = rlQValueRepresentation(qTable,getObservationInfo(env),getActionInfo(env));

Создайте агента Q-обучения с помощью заданной функции ценности критика и значения эпсилона 0.05.

opt = rlQAgentOptions;
opt.EpsilonGreedyExploration.Epsilon = 0.05;

agent = rlQAgent(critic,opt)

agent = 
  rlQAgent with properties:

    AgentOptions: [1x1 rl.option.rlQAgentOptions]

Чтобы проверять вашего агента, используйте getAction, чтобы возвратить действие в случайное наблюдение.

getAction(agent,{randi(25)})

ans = 1

Можно теперь протестировать и обучить агента против среды.

Документация

rlQAgent

Описание

Создание

Синтаксис

Описание

Входные параметры

`critic` — Представление сети Critic
`rlQValueRepresentation` объект

Свойства

`AgentOptions` — Опции агента
`rlQAgentOptions` объект

Функции объекта

Примеры

Создайте агента Q-обучения

Смотрите также

Функции

Темы

Документация Reinforcement Learning Toolbox

Поддержка

Документация

rlQAgent

Описание

Создание

Синтаксис

Описание

Входные параметры

critic — Представление сети Critic rlQValueRepresentation объект

Свойства

AgentOptions — Опции агента rlQAgentOptions объект

Функции объекта

Примеры

Создайте агента Q-обучения

Смотрите также

Функции

Темы

Документация Reinforcement Learning Toolbox

Поддержка

`critic` — Представление сети Critic
`rlQValueRepresentation` объект

`AgentOptions` — Опции агента
`rlQAgentOptions` объект