Агенты Q-изучения

Алгоритм Q-изучения является онлайновым, методом изучения укрепления вне политики без моделей. Агент Q-изучения является основанным на значении агентом изучения укрепления, который обучает критика оценивать возврат или будущие вознаграждения.

Для получения дополнительной информации о различных типах агентов изучения укрепления смотрите, что Укрепление Изучает Агенты.

Агенты Q-изучения могут быть обучены в средах со следующими пробелами наблюдения и действия.

Пространство наблюдений	Пробел действия
Непрерывный или дискретный	Дискретный

Во время обучения агент исследует пробел действия с помощью жадного эпсилоном исследования. Во время каждого интервала управления агент выбирает случайное действие с вероятностью ϵ, в противном случае это выбирает действие жадно относительно функции значения с вероятностью 1-ϵ. Это жадное действие является действием, для которого функция значения является самой большой.

Функция критика

Чтобы оценить функцию значения, агент Q-изучения поддерживает критика Q (S, A), который является таблицей или функцией approximator. Критик берет наблюдение S и действие A как вводы и выводы соответствующее ожидание долгосрочного вознаграждения.

Для получения дополнительной информации о создании критиков для приближения функций значения смотрите, Создают политику и Представления Функции Значения.

Когда обучение завершено, обученная функция значения approximator хранится в критике Q (S, A).

Создание агента

Чтобы создать агент Q-изучения сначала создают объект представления критика. Затем с помощью этого представления создайте агент с помощью функции rlQAgent.

Учебный алгоритм

Агенты Q-изучения используют следующий учебный алгоритм. Чтобы сконфигурировать учебный алгоритм, задайте опции с помощью rlQAgentOptions.

Инициализируйте критика Q (S, A) со случайными значениями.
Для каждого учебного эпизода:
1. Установите начальное наблюдение S.
2. Повторите следующее для каждого шага эпизода, пока S не будет терминальным состоянием:
  1. Для текущего наблюдения S выберите случайное действие A с вероятностью ϵ. В противном случае выберите действие, для которого функция значения критика является самой большой.
    $A = \max_{A} Q (S, A)$
    Чтобы задать ϵ и его уровень затухания, используйте опцию EpsilonGreedyExploration.
  2. Выполните действие A. Наблюдайте вознаграждение R и следующее наблюдение S'.
  3. Если S' является терминальным состоянием, поставьте цель функции значения y к R. В противном случае установите его на:
    $y = R + γ \max_{A} Q (S', A)$
    Чтобы установить коэффициент дисконтирования γ, используйте опцию DiscountFactor.
  4. Вычислите обновление параметра критика.
    $Δ Q = y - Q (S, A)$
  5. Обновите критика, использующего темп обучения α.
    $Q (S, A) = Q (S, A) + α * Δ Q$
    Задайте темп обучения, когда вы создадите представление критика путем установки опции LearnRate в объекте rlRepresentationOptions.
  6. Установите наблюдение S на S'.

Смотрите также

rlQAgentOptions | rlRepresentation

Документация