Агенты SARSA

Алгоритм SARSA является онлайновым, методом изучения укрепления на политике без моделей. Агент SARSA является основанным на значении агентом изучения укрепления, который обучает критика оценивать возврат или будущие вознаграждения.

Для получения дополнительной информации о различных типах агентов изучения укрепления смотрите, что Укрепление Изучает Агенты.

Агенты SARSA могут быть обучены в средах со следующими пробелами наблюдения и действия.

Пространство наблюдений	Пробел действия
Непрерывный или дискретный	Дискретный

Во время обучения агент исследует пробел действия с помощью жадного эпсилоном исследования. Во время каждого интервала управления агент выбирает случайное действие с вероятностью ϵ, в противном случае это выбирает действие жадно относительно функции значения с вероятностью 1-ϵ. Это жадное действие является действием, для которого функция значения является самой большой.

Функция критика

Чтобы оценить функцию значения, агент SARSA поддерживает критика Q (S, A), который является таблицей или функцией approximator. Критик берет наблюдение S и действие A как вводы и выводы соответствующее ожидание долгосрочного вознаграждения.

Для получения дополнительной информации о создании критиков для приближения функций значения смотрите, Создают политику и Представления Функции Значения.

Когда обучение завершено, обученная функция значения approximator хранится в критике Q (S, A).

Создание агента

Чтобы создать агент SARSA сначала создают объект представления критика. Затем с помощью этого представления создайте агент с помощью функции rlSARSAAgent.

Учебный алгоритм

Агенты SARSA используют следующий учебный алгоритм. Чтобы сконфигурировать учебный алгоритм, задайте опции с помощью rlSARSAAgentOptions.

Инициализируйте критика Q (S, A) со случайными значениями.
Для каждого учебного эпизода:
1. Установите начальное наблюдение S.
2. Для текущего наблюдения S выберите случайное действие A с вероятностью ϵ. В противном случае выберите действие, для которого функция значения критика является самой большой.
  $A = \max_{A} Q (S, A)$
  Чтобы задать ϵ и его уровень затухания, используйте опцию EpsilonGreedyExploration.
3. Повторите следующее для каждого шага эпизода, пока S не будет терминальным состоянием:
  1. Выполните действие A. Наблюдайте вознаграждение R и следующее наблюдение S'.
  2. Выберите действие A' следующим политика от S' состояния.
    $A' = \max_{A'} Q (S', A')$
  3. Если S' является терминальным состоянием, поставьте цель функции значения y к R. В противном случае установите его на:
    $y = R + γ Q (S', A')$
    Чтобы установить коэффициент дисконтирования γ, используйте опцию DiscountFactor.
  4. Вычислите обновление параметра критика.
    $Δ Q = y - Q (S, A)$
  5. Обновите критика, использующего темп обучения α.
    $Q (S, A) = Q (S, A) + α * Δ Q$
    Задайте темп обучения, когда вы создадите представление критика путем установки опции LearnRate в объекте rlRepresentationOptions.
  6. Установите наблюдение S на S'.
  7. Установите действие A на A'.

Документация