rlQAgent

Агент по обучению Q-learning

Описание

Алгоритм Q-learning - это метод обучения без модели, онлайн, вне политики. Агент Q-learning - это агент обучения усилению на основе стоимости, который обучает критика оценивать отдачу или будущие вознаграждения.

Дополнительные сведения об агентах Q-learning см. в разделе Агенты Q-Learning.

Дополнительные сведения о различных типах агентов обучения усилению см. в разделе Агенты обучения усилению.

Создание

Синтаксис

agent = rlQAgent (критик, параметры агента)

Описание

пример

agent = rlQAgent(critic,agentOptions) создает Q-обучающий агент с указанной сетью критиков и устанавливает AgentOptions собственность.

Входные аргументы

развернуть все

`critic` - Критическое представление сети
`rlQValueRepresentation` объект

Критическое сетевое представление, указанное как rlQValueRepresentation объект. Дополнительные сведения о создании представлений критиков см. в разделе Создание представлений политик и функций значений.

Свойства

развернуть все

`AgentOptions` - Параметры агента
`rlQAgentOptions` объект

Параметры агента, указанные как rlQAgentOptions объект.

Функции объекта

`train`	Подготовка обучающих агентов по усилению в определенной среде
`sim`	Моделирование обученных агентов по обучению подкреплению в определенной среде
`getAction`	Получить действие от агента или актора при наблюдении за окружающей средой
`getActor`	Получение представления актера от обучающего агента усиления
`setActor`	Задать представление актора обучающего агента усиления
`getCritic`	Получение критического представления от агента обучения усиления
`setCritic`	Задать критическое представление агента обучения усилению
`generatePolicyFunction`	Создание функции, оценивающей обученную политику усиления агента обучения

Примеры

свернуть все

Создание агента Q-Learning

Открыть сценарий в реальном времени

Создайте интерфейс среды.

env = rlPredefinedEnv("BasicGridWorld");

Создайте критическое представление функции Q-value, используя Q-таблицу, полученную из спецификаций наблюдения и действий среды.

qTable = rlTable(getObservationInfo(env),getActionInfo(env));
critic = rlQValueRepresentation(qTable,getObservationInfo(env),getActionInfo(env));

Создание агента Q-learning с использованием указанной функции критического значения и эпсилонного значения 0.05.

opt = rlQAgentOptions;
opt.EpsilonGreedyExploration.Epsilon = 0.05;

agent = rlQAgent(critic,opt)

agent = 
  rlQAgent with properties:

    AgentOptions: [1x1 rl.option.rlQAgentOptions]

Чтобы проверить агента, используйте getAction, чтобы вернуть действие из случайного наблюдения.

getAction(agent,{randi(25)})

ans = 1

Теперь можно тестировать и обучать агента работе с окружающей средой.

См. также

Функции

rlQAgentOptions

Темы

Представлен в R2019a

Документация

rlQAgent

Описание

Создание

Синтаксис

Описание

Входные аргументы

`critic` - Критическое представление сети
`rlQValueRepresentation` объект

Свойства

`AgentOptions` - Параметры агента
`rlQAgentOptions` объект

Функции объекта

Примеры

Создание агента Q-Learning

См. также

Функции

Темы

Документация по инструментам обучения для усиления

Поддержка

Документация

rlQAgent

Описание

Создание

Синтаксис

Описание

Входные аргументы

critic - Критическое представление сети rlQValueRepresentation объект

Свойства

AgentOptions - Параметры агента rlQAgentOptions объект

Функции объекта

Примеры

Создание агента Q-Learning

См. также

Функции

Темы

Документация по инструментам обучения для усиления

Поддержка

`critic` - Критическое представление сети
`rlQValueRepresentation` объект

`AgentOptions` - Параметры агента
`rlQAgentOptions` объект