Функции потерь и показатели качества модели

Что такое функция потерь?

Программное обеспечение System Identification Toolbox™ оценивает параметры модели путем минимизации погрешности между выводом модели и измеренным откликом. Эта ошибка, называемая функцией потерь или функцией затрат, является положительной функцией ошибок предсказания e (t). Как правило, эта функция представляет собой взвешенную сумму квадратов ошибок. Для модели с ny-выходами функция потерь V (start) имеет следующий общий вид:

$V (λ) \frac{=}{}_{}^{}^{} 1N∑t=1NeT (t, start) W (start) e$ (t, start)

где:

N - количество выборок данных.
e (t, start) - вектор ошибки «ny-by-1» в заданное время t, параметризованный вектором, определяющим этот параметр.
W (start) - матрица взвешивания, заданная как положительная полуопределённая матрица. Если W является диагональной матрицей, ее можно рассматривать как способ управления относительной важностью выходов во время многовыходных оценок. Когда W является фиксированным или известным весом, он не зависит от λ.

Программное обеспечение определяет значения параметров, минимизируя значение V (λ) по отношению

Для нотационного удобства V (start) выражается в его матричной форме:

$V (λ) \frac{}{=}^{1Ntrace} (ET$ (

E (start) является матрицей ошибок размера N-за-ny. Строка i: th в E (start) представляет значение ошибки в момент времени t = i.

Точная форма V (start) зависит от следующих факторов:

Структура модели. Например, является ли модель, которую требуется оценить, моделью ARX или моделью пространства состояний.
Варианты оценки и оценки. Например, используется ли n4sid или ssest оценщик и определение таких опций, как Focus и OutputWeight.

Параметры настройки функции потери

Функцию потери можно настроить в соответствии с требованиями приложения. Следующие опции оценки, если они доступны для оценщика, конфигурируют функцию потерь:

Вариант оценки	Описание	Примечания
`Focus`	`Focus` влияет на способ вычисления e (t) в функции потерь: Когда `Focus` является `'prediction'`, e (t) представляет ошибку предсказания на 1 шаг вперед: $_{ep} (t)_{=} измеренный (_{t) -}$ прогнозируемый (t) Когда `Focus` является `'simulation'`, e (t) представляет ошибку моделирования: $_{es} (t)_{=} измеренный (_{t) -}$ имитированный (t) Примечание Для моделей, шумовая составляющая которых тривиальна, (H (q) = 1), _ep (t) и es (t) эквивалентны. `Focus` опция также может быть интерпретирована как взвешивающий фильтр в функции потерь. Дополнительные сведения см. в разделе Влияние параметров фокуса и фильтра WeEFF на функцию потерь.	Укажите `Focus` в наборах опций оценки. Наборы опций оценки для `oe` и `tfest` не имеют `Focus` опция, поскольку шумовая составляющая для расчетных моделей является тривиальной, и поэтому ep (t) и _es (t) эквивалентны.
`WeightingFilter`	При указании фильтра взвешивания предварительно отфильтрованное предсказание или ошибка моделирования сводятся к минимуму: $_{ef} (t) =ℒ (e$ (t)) где $ℒ$ (.) - линейный фильтр. `WeightingFilter` может быть интерпретирован как пользовательский весовой фильтр, который применяется к функции потери. Дополнительные сведения см. в разделе Влияние параметров фокуса и фильтра WeEFF на функцию потерь.	Укажите `WeightingFilter` в наборах опций оценки. Не все параметры для `WeightingFilter` доступны для всех команд оценки.
`EnforceStability`	Когда `EnforceStability` является `true`, цель минимизации также содержит ограничение, заключающееся в том, что оценочная модель должна быть стабильной.	Укажите `EnforceStability` в наборах опций оценки. Наборы опций оценки для `procest` и `ssregest` команды не имеют `EnforceStability` вариант. Эти команды оценки всегда дают стабильную модель. Команды оценки `tfest` и `oe` всегда дают стабильную модель при использовании с данными оценки временной области. Выявление нестабильных установок требует сбора данных по замкнутому контуру со стабилизирующим контроллером обратной связи. Надежная оценка динамики установки требует достаточно богатой шумовой составляющей в структуре модели, чтобы отделить динамику установки от эффектов обратной связи. В результате модели, которые используют тривиальную составляющую шума (H (q) = 1), такие как модели, оцененные `tfest` и `oe` команды, не оценивают хорошие результаты для нестабильных растений.
`OutputWeight`	`OutputWeight` Опция конфигурирует матрицу взвешивания W (start) в функции потерь и позволяет управлять относительной важностью выходных каналов во время многовыходных оценок. Когда `OutputWeight` является `'noise'`, W (start) равняется обратной оценочной дисперсии ошибки e (t): $W (start) {\frac{=}{} (^{} 1NET (start) E}^{(}$ start)) − 1 Поскольку W зависит от, взвешивание определяется как часть оценки. Минимизация функции потери с помощью этого веса упрощает функцию потери для: $V (start) = \frac{}{\det}^{(} 1NET$ (,, Использование обратной дисперсии шума является оптимальным взвешиванием в смысле максимального правдоподобия. Когда `OutputWeight` является ny-by-ny положительной полуопределённой матрицей, используется постоянное взвешивание. Затем эта функция потерь становится взвешенной суммой квадратичных ошибок.	Укажите `OutputWeight` в наборах опций оценки. Не все параметры для `OutputWeight` доступны для всех команд оценки. `OutputWeight` недоступна для оценки полиномиальной модели, поскольку такие модели всегда оцениваются по одному выходному сигналу за раз. `OutputWeight` не может быть `'noise'` когда `SearchMethod` является `'lsqnonlin'`.
`ErrorThreshold`	`ErrorThreshold` параметр задает пороговое значение для настройки веса больших ошибок с квадратичного на линейный. Ошибки больше, чем `ErrorThreshold` раз расчетное стандартное отклонение имеет линейный вес в функции потери. $V (θ) \frac{=}{} \underset{(}{1 Н}^{} \sumt\inIeT (t, θ) W (θ) e \underset{t, θ}{(})^{} + ∑t∈JvT (t, θ) W$ (θ) v (t, θ)) где: Я представляю те моменты времени, для которых $\begin{array}{l} \| e (t) \| < \end{array}$ J представляет собой дополнение I, то есть моменты времени, для которых $\| e (t) \| >$ = λ - расчетное стандартное отклонение погрешности. Погрешность v (t, start) определяется как: $v (t, start) = e (t \frac{,}{\sqrt{start) * (}}$ t,	Укажите `ErrorThreshold` в наборах опций оценки. Типичное значение порогового значения погрешности start= 1.6 минимизирует влияние отклонений данных на результаты оценки.
`Regularization`	`Regularization` опция изменяет функцию потерь, добавляя штраф к отклонению оцененных параметров. Функция потерь устанавливается с целью минимизации ошибок прогнозирования. Он не включает конкретные ограничения на дисперсию (показатель надежности) оцениваемых параметров. Это иногда может привести к моделям с большой неопределенностью в оценочных параметрах модели, особенно когда модель имеет много параметров. `Regularization` вводит дополнительный термин в функцию потерь, который наказывает гибкость модели: $V (θ) \frac{=}{}_{}^{}^{} 1N∑t=1NeT (t, θ) W (θ) e (t, \frac{θ}{)} + {{1Nλ}^{} (}^{} θ-θ )^{TR}$ (θ−θ) Второе слагаемое представляет собой взвешенную (R) и масштабированную (λ) дисперсию оценочного параметрического множества	Укажите `Regularization` в наборах опций оценки. Для линейных моделей в параметрах (модели FIR) и моделей ARX можно вычислить оптимальные значения переменных регуляризации R и λ с помощью `arxRegul` команда.

Влияние `Focus` и `WeightingFilter` Опции функции потери

Focus может быть интерпретирован как весовой фильтр в функции потерь. WeightingFilter опция является дополнительным пользовательским весовым фильтром, который применяется к функции потери.

Чтобы понять эффект Focus и WeightingFilterрассмотрим линейную модель с одним входом и одним выходом:

$y (t) = G (q$ ,

Где G (q, λ) - измеренная передаточная функция, H (q, λ) - модель шума, и e (t) - аддитивные возмущения, смоделированные как белый гауссов шум. q - оператор временного сдвига.

В частотной области линейная модель может быть представлена как:

$Y (λ) = G (λ, λ) U (λ) + H$ (λ, λ) E (λ)

где Y (λ), U (λ) и E (λ) - преобразования Фурье выходной, входной и выходной ошибки соответственно. Значения G (λ, λ) и H ((λ, start) представляют частотную характеристику функций «вход-выход» и «шум-передача» соответственно.

Функция потерь, которая должна быть минимизирована для модели SISO, задается следующим образом:

$V (start) \frac{=}{}_{}^{}^{} 1N∑t=1NeT (t$ ,

Используя идентификатор Parseval, функция потери в частотной области:

$V (start, λ) \frac{}{=} {1N‖E}^{(}$ λ) ‖ 2

Замена на E (λ) дает:

$V (θ,ω) \frac{}{} {\frac{=1N‖Y}{(ω)} U (ω) -G}^{(} \frac{{θ,ω))}^{}}{{‖2‖U (ω)}^{}}$ ‖2‖H (θ,ω) ‖2

Таким образом, можно интерпретировать минимизацию функции потерь V как аппроксимацию G (start, λ) к эмпирической передаточной $функции Y (λ) /$ U (λ), $\frac{{используя в}^{}}{^{}}$ качестве взвешивающего фильтра ‖ U (λ) ‖ 2‖H (start, λ) ‖ 2. Это соответствует заданиюFocus как 'prediction'. Оценка подчеркивает частоты, где вход имеет большую мощность ( ${‖ U (λ}^{)}$ ‖ 2 больше), и отменяет подчеркивание частот, где шум ${значителен (‖ H}^{(}$ start, λ) ‖ 2 велик).

Когда Focus указывается как 'simulation', обратное взвешивание с ${‖ H (start,}^{λ}$ ) ‖ 2 не используется. То есть только входной спектр используется для взвешивания относительной важности аппроксимации в конкретном частотном диапазоне.

При указании линейного фильтра $ℒ$ как WeightingFilter, он используется в качестве дополнительного пользовательского взвешивания в функции потерь.

$V (θ) \frac{}{^{}} {\frac{=1N2‖Y}{(ω)} U (ω)}^{−G} \frac{{(θ))}^{}}{{‖2‖U}^{(ω)}} {‖2‖H}^{}$ (θ) ‖2 ‖ℒ (ω) ‖2

Здесь $ℒ (λ$ ) - частотная характеристика фильтра. Используйте $ℒ ($ λ) для улучшения соответствия реакции модели наблюдаемым данным на определенных частотах, например, чтобы подчеркнуть соответствие близко к резонансным частотам системы.

Оцененное значение передаточной функции G «вход-выход» совпадает с полученным, если сначала выполнить предварительную фильтрацию оценочных данных с использованием $ℒ$ (.). idfilt, а затем оценить модель без указания WeightingFilter. Однако влияние $ℒ$ (.) на оценочную шумовую модель H зависит от выбора Focus:

Focus является 'prediction' - Программное обеспечение минимизирует взвешенную ошибку прогнозирования $_{ef} (t) {=ℒ}_{} (ep$ (t)), и оценочная модель имеет вид:
$y (t) = G (q) u_{} (t) +$ H1 (q) e (t)
Где $_{H1} (q) = H (q$ )/ ℒ (q). Таким образом, оценка с фокусом прогнозирования создает смещенную оценку Н. Это та же модель оцененного шума, которую вы получаете, если вы вместо этого сначала предварительно фильтруете $данные$ оценки с помощью ℒ (.), используяidfilt, а затем оценить модель.
Когда H параметризуется независимо от G, можно рассматривать $ℒ$ фильтра (.) как способ воздействия на распределение смещения оценки. Таким образом, при минимизации функции потерь можно определить компромисс между подгонкой G к частотной характеристике системы и подгонкой H/ℒ к спектру возмущений. Более подробную информацию см. в разделе 14.4 документа «Системная идентификация: теория для пользователя», второе издание, Lennart Ljung, Prentice Hall PTR, 1999.
Focus является 'simulation' - Программное обеспечение сначала оценивает G путем минимизации взвешенной ошибки моделирования $_{ef} (t) {=ℒ}_{} (es$ (t)), $_{} где es_{(t) =} измеренный (_{t) - G (} q)$ измеренный (t). После оценки G программное обеспечение фиксирует его и вычисляет H путем минимизации чистых ошибок е (t) прогнозирования с использованием нефильтрованных данных. Расчетная модель имеет вид:
$y (t) = G (q) u (t)$ + He (t)
Если сначала выполнить предварительную фильтрацию данных, а затем оценить модель, будет получена та же оценка для G, но $H/ℒ$ модель смещенного шума.

Таким образом, WeightingFilter имеет тот же эффект, что и предварительная фильтрация оценочных данных для оценки G. Для оценки H эффект WeightingFilter зависит от выбора Focus. Фокус прогнозирования оценивает смещенную версию модели шума $H/ℒ$ , в то время как фокус моделирования оценивает H. Предварительная фильтрация данных оценки, а затем оценка модели всегда дает $H/ℒ$ в качестве модели шума.

Метрики качества модели

После оценки модели используйте метрики качества модели для оценки качества идентифицированных моделей, сравнения различных моделей и выбора наилучшей. Report.Fit свойство идентифицированной модели хранит различные метрики, такие как FitPercent, LossFcn, FPE, MSE, AIC, nAIC, AICc, и BIC значения.

FitPercent, LossFcn, и MSE - это измерения фактического количества, которое минимизировано во время оценки. Например, если Focus является 'simulation'эти величины вычисляются для ошибки моделирования es (t). Аналогично, если указать WeightingFilter вариант, затем LossFcn, FPE, и MSE вычисляются с использованием отфильтрованных остатков ef (t).
FPE, AIC, nAIC, AICc, и BIC измерения вычисляются как свойства выходного возмущения в соответствии с соотношением:
$y (t) = G (q) u (t) +$ H (q) e (t)
G (q) и H (q) представляют измеренные и шумовые компоненты оцененной модели.
Независимо от того, как сконфигурирована функция потери, вектор ошибки e (t) вычисляется как ошибка прогнозирования на 1 шаг вперед, используя заданную модель и заданный набор данных. Это подразумевает, что даже когда модель получена минимизацией ошибки моделирования _es (t), FPE и различные значения AIC все еще вычисляются с использованием ошибки прогнозирования _ep (t). Фактическое значение _ep (t) определяется с помощью pe команда с горизонтом прогнозирования 1 и использованием исходных условий, заданных для оценки.
Эти метрики содержат два термина - один для описания точности модели и другой для описания ее сложности. Например, в FPE $\det \frac{(}{}^{} 1NET E$ ) описывает точность модели, а $\frac{1 \frac{+}{}}{\frac{npN1}{}}$ − npN описывает сложность модели.
Сравнивая модели с использованием этих критериев, можно выбрать модель, которая дает наилучший (наименьшее значение критерия) компромисс между точностью и сложностью.

Метрика качества	Описание
`FitPercent`	Нормализованная среднеквадратичная ошибка (NRMSE), выраженная в процентах, определяемая как: $FitPercent = 100 (\frac{_{}_{}}{1-‖ymeasured-ymodel_{‖ ‖} \overset{}{_{измеренный -}}}$ измеренный ‖) где: измеренные выходные данные. $\overset{}{_{измеренное}}$ значение является его (по каналам) средним значением. ymodel - моделируемый или прогнозируемый отклик модели, определяемый `Focus`. \| \|. \| \| обозначает 2-норму вектора. `FitPercent` варьируется между `-Inf` (плохая посадка) до 100 (идеальная посадка). Если значение равно нулю, то модель не лучше подгоняет измеренные данные, чем прямая линия, равная среднему значению данных.
`LossFcn`	Значение функции потерь после завершения оценки. Он содержит эффекты порогов ошибок, веса вывода и регуляризации, используемые для оценки.
`MSE`	Показатель среднеквадратичной ошибки, определяемый как: $MSE = \frac{}{}_{}^{}^{} 1N\sumt=1NeT (t) e$ (t) где: e (t) - сигнал, норма которого минимизирована для оценки. N - количество выборок данных в наборе данных оценки.
`FPE`	Ошибка окончательного прогнозирования (FPE) Акаике, определяемая как: $FPE = \frac{det}{} (^{} 1NET \frac{E) \frac{_{(}}{1}}{+ \frac{_{}}{}}$ npN1 − npN) где: _np - количество свободных параметров в модели. _np включает в себя количество оцененных начальных состояний. N - количество выборок в наборе данных оценки. E является N-й матрицей ошибок предсказания, где _ny - количество выходных каналов.
`AIC`	Необработанный показатель информационного критерия Акаике, определяемый как: $AIC=N∗log (det \frac{}{(}^{} 1NET E))_{}_{+2∗np+N} (ny*log ($ 2δ) + 1)
`AICc`	Небольшой размер выборки, скорректированный информационный критерий Акаике, определяемый как: $_{} AICc=AIC+2np \frac{(_{} np +}{1)_{(} N -}$ np − 1) Эта метрика часто является более надежной для выбора модели оптимальной сложности из списка моделей-кандидатов, когда размер данных N мал.
`nAIC`	Нормализованная мера информационного критерия Акаике, определяемая как: $nAIC = \log (\frac{}{\det}^{(} 1NET \frac{E))_{}}{}$ +2∗npN
`BIC`	Байесовский информационный критерий, определяемый как: $BIC=N∗log (det \frac{}{(}^{} 1NET E))_{+N∗} (ny*log (2δ)_{} + 1)$ +np∗log (N)

См. также

aic | fpe | goodnessOfFit | nparams | pe | predict | sim

Документация