Мягкий актерско-критический агент по обучению
Алгоритм soft actor-critic (SAC) - безмодельный, онлайн, внеполитический, актерско-критический метод обучения подкреплению. Алгоритм SAC вычисляет оптимальную политику, которая максимизирует как долгосрочное ожидаемое вознаграждение, так и энтропию политики. Политическая энтропия является мерой политической неопределенности, учитывая состояние. Более высокая величина энтропии способствует большему исследованию. Максимизация вознаграждения и энтропии уравновешивает разведку и разработку окружающей среды. Пространство действий может быть только непрерывным.
Дополнительные сведения см. в разделе Агенты Soft Actor-Critic.
Дополнительные сведения о различных типах агентов обучения усилению см. в разделе Агенты обучения усилению.
создает агент SAC для среды с заданными спецификациями наблюдения и действий, используя параметры инициализации по умолчанию. Представления актера и критика в агенте используют глубокие нейронные сети по умолчанию, построенные с использованием спецификации наблюдения agent = rlSACAgent(observationInfo,actionInfo)observationInfo и спецификация действий actionInfo.
создает SAC-агент с глубокими нейронными сетевыми представлениями, настроенными с использованием указанных опций инициализации (agent = rlSACAgent(observationInfo,actionInfo,initOptions)initOptions).
задает свойство AgentOptions для любого из предыдущих синтаксисов.agent = rlSACAgent(___,agentOptions)
train | Подготовка обучающих агентов по усилению в определенной среде |
sim | Моделирование обученных агентов по обучению подкреплению в определенной среде |
getAction | Получить действие от агента или актора при наблюдении за окружающей средой |
getActor | Получение представления актера от обучающего агента усиления |
setActor | Задать представление актора обучающего агента усиления |
getCritic | Получение критического представления от агента обучения усиления |
setCritic | Задать критическое представление агента обучения усилению |
generatePolicyFunction | Создание функции, оценивающей обученную политику усиления агента обучения |
Конструктор глубоких сетей | rlAgentInitializationOptions | rlSACAgentOptions | rlStochasticActorRepresentation | rlValueRepresentation