Актерско-критический агент по обучению
Агенты актеров-критиков (AC) реализуют алгоритмы актеров-критиков, такие как A2C и A3C, которые являются безмодельными, онлайновыми методами обучения укреплению политики. Агент актера-критика оптимизирует политику (актера) напрямую и использует критика для оценки отдачи или будущих вознаграждений. Пространство действия может быть дискретным или непрерывным.
Дополнительные сведения см. в разделе Агенты актера-критика. Дополнительные сведения о различных типах агентов обучения усилению см. в разделе Агенты обучения усилению.
создает агента-исполнителя для среды с заданными спецификациями наблюдения и действия, используя опции инициализации по умолчанию. Представления актера и критика в агенте используют глубокие нейронные сети по умолчанию, построенные из спецификации наблюдения agent = rlACAgent(observationInfo,actionInfo)observationInfo и спецификацию действия actionInfo.
создает актера-критика для среды с заданными характеристиками наблюдения и действия. Агент использует сети по умолчанию, в которых каждый скрытый полностью подключенный уровень имеет количество единиц, указанное в agent = rlACAgent(observationInfo,actionInfo,initOpts)initOpts объект. Агенты актера-критика не поддерживают рецидивирующие нейронные сети. Дополнительные сведения о параметрах инициализации см. в разделе rlAgentInitializationOptions.
создает агента актера-критика и задает свойству AgentOptions значение agent = rlACAgent(___,agentOptions)agentOptions входной аргумент. Используйте этот синтаксис после любого из входных аргументов в предыдущих синтаксисах.
train | Подготовка обучающих агентов по усилению в определенной среде |
sim | Моделирование обученных агентов по обучению подкреплению в определенной среде |
getAction | Получить действие от агента или актора при наблюдении за окружающей средой |
getActor | Получение представления актера от обучающего агента усиления |
setActor | Задать представление актора обучающего агента усиления |
getCritic | Получение критического представления от агента обучения усиления |
setCritic | Задать критическое представление агента обучения усилению |
generatePolicyFunction | Создание функции, оценивающей обученную политику усиления агента обучения |
Для непрерывных пространств действий: rlACAgent объект не применяет ограничения, заданные спецификацией действия, поэтому необходимо применять ограничения пространства действия в среде.
Конструктор глубоких сетей | rlACAgentOptions | rlAgentInitializationOptions | rlStochasticActorRepresentation | rlValueRepresentation