Функция потерь и метрики качества модели

Что такое Функция потерь?

Программное обеспечение System Identification Toolbox™ оценивает параметры модели путем минимизации ошибки между выходом модели и измеренным откликом. Эта ошибка, названная loss function или cost function, является положительной функцией ошибок предсказания e (t). В общем случае эта функция является взвешенной суммой квадратов ошибок. Для модели с ny - выходные параметры, функция потерь V (θ) имеет следующую общую форму:

$V (θ) = \frac{1}{N} \sum_{t = 1}^{N} e^{T} (t, θ) W (θ) e (t, θ)$

где:

N является количеством выборок данных.
e (t, θ) является ny-by-1 вектор ошибок в установленный срок t, параметрированный вектором параметра θ.
W (θ) является матрицей взвешивания в виде положительной полуопределенной матрицы. Если W является диагональной матрицей, можно думать о нем как о способе управлять относительной важностью выходных параметров во время мультивыходных оценок. Когда W является фиксированным или известным весом, он не зависит от θ.

Программное обеспечение определяет значения параметров путем минимизации V (θ) относительно θ.

Для письменного удобства V (θ) описывается в его матричной форме:

$V (θ) = \frac{1}{N} t r a c e (E^{T} (θ) E (θ) W (θ))$

E (θ) является ошибочной матрицей размера N-by-ny. i:th строка E (θ) представляет ошибочное значение во время t = i.

Точная форма V (θ) зависит от следующих факторов:

Структура модели. Например, ли модель, которую вы хотите оценить, является ARX или моделью в пространстве состояний.
Средство оценки и опции оценки. Например, ли вы используете n4sid или ssest средство оценки и опции определения, такие как Focus и OutputWeight.

Опции, чтобы сконфигурировать функцию потерь

Можно сконфигурировать функцию потерь для потребностей приложения. Следующие опции оценки, когда доступно для средства оценки, конфигурируют функцию потерь:

Опция оценки	Описание	Примечания
`Focus`	`Focus` опция влияет, как e (t) в функции потерь вычисляется: Когда `Focus` `'prediction'`, e (t) представляет 1 шаг вперед ошибка предсказания: $e_{p} (t) = y_{m e a s u r e d} (t) - y_{p r e d i c t e d} (t)$ Когда `Focus` `'simulation'`, e (t) представляет ошибку симуляции: $e_{s} (t) = y_{m e a s u r e d} (t) - y_{s i m u l a t e d} (t)$ Примечание Для моделей, шумовой компонент которых тривиален, (H (q) = 1), e _p (t) и e _s (t) эквивалентен. `Focus` опция может также быть интерпретирована, когда взвешивание просачивается функция потерь. Для получения дополнительной информации смотрите Эффект Опций Особого внимания и WeightingFilter на Функции потерь.	Задайте `Focus` опция в наборах опции оценки. Опция оценки устанавливает для `oe` и `tfest` не имейте `Focus` опция, потому что шумовой компонент для предполагаемых моделей тривиален, и таким образом, e _p (t) и e _s (t) эквивалентны.
`WeightingFilter`	Когда вы задаете фильтр взвешивания, предварительно отфильтрованная ошибка предсказания или симуляции минимизирована: $e_{f} (t) = ℒ (e (t))$ где $ℒ (.)$ линейный фильтр. `WeightingFilter` опция может быть интерпретирована как пользовательский фильтр взвешивания, который применяется к функции потерь. Для получения дополнительной информации смотрите Эффект Опций Особого внимания и WeightingFilter на Функции потерь.	Задайте `WeightingFilter` опция в наборах опции оценки. Не все опции для `WeightingFilter` доступны для всех команд оценки.
`EnforceStability`	Когда `EnforceStability` `true`, цель минимизации также содержит ограничение, что предполагаемая модель должна быть устойчивой.	Задайте `EnforceStability` опция в наборах опции оценки. Опция оценки устанавливает для `procest` и `ssregest` команды не имеют `EnforceStability` опция. Эти команды оценки всегда дают к устойчивой модели. Команды оценки `tfest` и `oe` всегда давайте к устойчивой модели, когда используется с данными об оценке временного интервала. Идентификация нестабильных объектов требует сбора данных под замкнутым циклом со стабилизировавшимся контроллером обратной связи. Надежная оценка динамики объекта требует, чтобы достаточно богатый шумовой компонент в структуре модели выделил динамику объекта от эффектов обратной связи. В результате модели, которые используют тривиальный шумовой компонент (H (q) = 1), такой как модели, оцененные `tfest` и `oe` команды, не оценивайте хорошие результаты для нестабильных объектов.
`OutputWeight`	`OutputWeight` опция конфигурирует взвешивающий матричный W (θ) в функции потерь и позволяет вам управлять относительной важностью выходных каналов во время мультивыходных оценок. Когда `OutputWeight` `'noise'`, W (θ) равняется инверсии предполагаемого отклонения ошибки e (t): $W (θ) = {(\frac{1}{N} E^{T} (θ) E (θ))}^{- 1}$ Поскольку W зависит от θ, взвешивание определяется как часть оценки. Минимизация функции потерь с этим весом упрощает функцию потерь до: $V (θ) = d e t (\frac{1}{N} E^{T} (θ) E (θ))$ Используя инверсию шумового отклонения оптимальное взвешивание в смысле наибольшего правдоподобия. Когда `OutputWeight` ny-by-ny положительная полуопределенная матрица, постоянное взвешивание используется. Эта функция потерь затем становится взвешенной суммой квадратичных невязок.	Задайте `OutputWeight` опция в наборах опции оценки. Не все опции для `OutputWeight` доступны для всех команд оценки. `OutputWeight` не доступно для полиномиальной оценки модели, потому что такие модели всегда оцениваются та выход за один раз. `OutputWeight` не может быть `'noise'` когда `SearchMethod` `'lsqnonlin'`.
`ErrorThreshold`	`ErrorThreshold` опция задает порог для того, когда настроить вес больших ошибок от квадратичного до линейного. Ошибки, больше, чем `ErrorThreshold` времена предполагаемое стандартное отклонение имеют линейный вес в функции потерь. $V (θ) = \frac{1}{N} (\sum_{t \in I} e^{T} (t, θ) W (θ) e (t, θ) + \sum_{t \in J} v^{T} (t, θ) W (θ) v (t, θ))$ где: I представляет те моменты времени для который $\begin{array}{l} \| e (t) \| < ρ * σ \end{array}$ , где ρ является порогом ошибок. J представляет дополнение I, то есть, моменты времени для который $\| e (t) \| > = ρ * σ$ . σ предполагаемое стандартное отклонение ошибки. Ошибка v (t, θ) задан как: $v (t, θ) = e (t, θ) * σ \frac{ρ}{\sqrt{\| e (t, θ) \|}}$	Задайте `ErrorThreshold` опция в наборах опции оценки. Типичное значение для порога ошибок ρ = 1.6 минимизирует эффект выбросов данных на результатах оценки.
`Regularization`	`Regularization` опция изменяет функцию потерь, чтобы добавить штраф на отклонении предполагаемых параметров. Функция потерь настраивается с целью минимизации ошибок предсказания. Это не включает определенные ограничения на отклонение (мера надежности) предполагаемых параметров. Это может иногда приводить к моделям с большой неопределенностью в предполагаемых параметрах модели, особенно когда модель имеет много параметров. `Regularization` вводит дополнительное условие в функции потерь, которая штрафует гибкость модели: $V (θ) = \frac{1}{N} \sum_{t = 1}^{N} e^{T} (t, θ) W (θ) e (t, θ) + \frac{1}{N} λ {(θ - θ^{})}^{T} R (θ - θ^{})$ Второй срок является взвешенным (R) и масштабируемое (λ) отклонение предполагаемого набора параметров θ о его номинальной стоимости θ*.	Задайте `Regularization` опция в наборах опции оценки. Для линейных в параметре моделей (КИХ-модели) и модели ARX, можно вычислить оптимальные значения переменных R регуляризации и λ с помощью `arxRegul` команда.

Эффект `Focus` и `WeightingFilter` Опции на функции потерь

Focus опция может быть интерпретирована, когда взвешивание просачивается функция потерь. WeightingFilter опция является дополнительным пользовательским фильтром взвешивания, который применяется к функции потерь.

Изучать эффект Focus и WeightingFilter, считайте линейный одно вход моделью одно выхода:

$y (t) = G (q, θ) u (t) + H (q, θ) e (t)$

Где G (q, θ) является измеренной передаточной функцией, H (q, θ) является шумовой моделью, и e (t) представляет аддитивные воздействия, смоделированные как белый Гауссов шум. q является оператором сдвига времени.

В частотном диапазоне линейная модель может быть представлена как:

$Y (ω) = G (ω, θ) U (ω) + H (ω, θ) E (ω)$

где Y (ω), U (ω) и E (ω) является преобразованиями Фурье выхода, входа и ошибки на выходе, соответственно. G (ω, θ) и H (ω, θ) представляет частотную характеристику ввода - вывода и шумовых передаточных функций, соответственно.

Функцией потерь, которая будет минимизирована для модели SISO, дают:

$V (θ) = \frac{1}{N} \sum_{t = 1}^{N} e^{T} (t, θ) e (t, θ)$

Используя Идентичность Парсевэла, функция потерь в частотном диапазоне:

$V (θ, ω) = \frac{1}{N} {‖ E (ω) ‖}^{2}$

Заменение E (ω) дает:

$V (θ, ω) = \frac{1}{N} {‖ \frac{Y (ω)}{U (ω)} - G (θ, ω)) ‖}^{2} \frac{{‖ U (ω) ‖}^{2}}{{‖ H (θ, ω) ‖}^{2}}$

Таким образом можно интерпретировать минимизацию функции потерь V как подходящий G (θ, ω) к эмпирической передаточной функции $Y (ω) / U (ω)$ , использование $\frac{{‖ U (ω) ‖}^{2}}{{‖ H (θ, ω) ‖}^{2}}$ как фильтр взвешивания. Это соответствует определению Focus как 'prediction'. Оценка подчеркивает частоты, где введенный имеет больше силы ( ${‖ U (ω) ‖}^{2}$ больше), и преуменьшает роль частот, где шум является значительным ( ${‖ H (θ, ω) ‖}^{2}$ является большим).

Когда Focus задан как 'simulation', обратное взвешивание с ${‖ H (θ, ω) ‖}^{2}$ не используется. Таким образом, только входной спектр используется, чтобы весить, относительная важность оценки помещаются в определенный частотный диапазон.

Когда вы задаете линейный фильтр $ℒ$ как WeightingFilter, это используется в качестве дополнительного пользовательского взвешивания в функции потерь.

$V (θ) = \frac{1}{N^{2}} {‖ \frac{Y (ω)}{U (ω)} - G (θ)) ‖}^{2} \frac{{‖ U (ω) ‖}^{2}}{{‖ H (θ) ‖}^{2}} {‖ ℒ (ω) ‖}^{2}$

Здесь $ℒ (ω)$ частотная характеристика фильтра. Использование $ℒ (ω)$ улучшать припадок ответа модели на наблюдаемые данные в определенных частотах, например, подчеркнуть подгонку близко к системе резонансные частоты.

Ориентировочная стоимость передаточной функции ввода - вывода, G совпадает с тем, с чем вы добираетесь если вы вместо этого первый предварительный фильтр данные об оценке $ℒ (.)$ использование idfilt, и затем оцените модель, не задавая WeightingFilter. Однако эффект $ℒ (.)$ на предполагаемой шумовой модели H зависит от выбора Focus:

Focus 'prediction' — Программное обеспечение минимизирует взвешенную ошибку предсказания $e_{f} (t) = ℒ (e_{p} (t))$ , и предполагаемая модель имеет форму:
$y (t) = G (q) u (t) + H_{1} (q) e (t)$
Где $H_{1} (q) = H (q) / ℒ (q)$ . Таким образом оценка с особым вниманием предсказания создает смещенную оценку H. Это - та же предполагаемая шумовая модель, с которой вы добираетесь если вы вместо этого первый предварительный фильтр данные об оценке $ℒ (.)$ использование idfilt, и затем оцените модель.
Когда H параметрируется независимый от G, можно обработать фильтр $ℒ (.)$ как способ влиять на оценку смещают распределение. Таким образом, можно сформировать компромисс между подбором кривой G к системной частотной характеристике и подбором кривой $H / ℒ$ к спектру воздействия при минимизации функции потерь. Для получения дополнительной информации смотрите, разделите 14.4 в System Identification: Теория для Пользователя, Второго Выпуска, Lennart Ljung, PTR Prentice Hall, 1999.
Focus 'simulation' — Программное обеспечение сначала оценивает G путем минимизации взвешенной ошибки симуляции $e_{f} (t) = ℒ (e_{s} (t))$ , где $e_{s} (t) = y_{m e a s u r e d} (t) - G (q) u_{m e a s u r e d} (t)$ . Если G оценивается, программные исправления это и вычисляет H путем минимизации чистых ошибок предсказания e (t) с помощью неотфильтрованных данных. Предполагаемая модель имеет форму:
$y (t) = G (q) u (t) + H e (t)$
Если вы предварительный фильтр, данные сначала, и затем оценивают модель, вы получаете ту же оценку для G, но получаете смещенную шумовую модель $H / ℒ$ .

Таким образом, WeightingFilter оказывает то же влияние как предварительная фильтрация данных об оценке для оценки G. Для оценки H, эффекта WeightingFilter зависит от выбора Focus. Особое внимание предсказания оценивает смещенную версию шумовой модели $H / ℒ$ , в то время как особое внимание симуляции оценивает H. Предварительная фильтрация данных об оценке, и затем оценка модели всегда дают $H / ℒ$ как шумовая модель.

Метрики качества модели

После того, как вы оцените модель, используйте метрики качества модели, чтобы оценить качество идентифицированных моделей, сравнить различные модели и выбрать лучшую. Report.Fit свойство идентифицированной модели хранит различные метрики, такие как FitPercent, LossFcn, FPE, MSE, AIC, nAIC, AICc, и BIC значения.

FitPercent, LossFcn, и MSE меры фактического количества, которое минимизировано во время оценки. Например, если Focus 'simulation', эти количества вычисляются для ошибки симуляции e _s (t). Точно так же, если вы задаете WeightingFilter опция, затем LossFcn, FPE, и MSE вычисляются с помощью отфильтрованных остаточных значений e _f (t).
FPE, AIC, nAIC, AICc, и BIC меры вычисляются как свойства выходного воздействия согласно отношению:
$y (t) = G (q) u (t) + H (q) e (t)$
G (q) и H (q) представляет измеренные и шумовые компоненты предполагаемой модели.
Независимо от того, как функция потерь сконфигурирована, вектор ошибок, e (t) вычисляется как 1 шаг вперед ошибка предсказания данная модель и данный набор данных. Это подразумевает, что, даже когда модель получена путем минимизации ошибки симуляции, e _s (t), FPE и различные значения AIC все еще вычисляется с помощью ошибки предсказания e _p (t). Фактическое значение e _p (t) определяется с помощью pe команда с горизонтом предсказания 1 и использование начальных условий задана для оценки.
Эти метрики содержат два условия — один для описания точности модели и другого, чтобы описать ее сложность. Например, в FPE, $d e t (\frac{1}{N} E^{T} E)$ описывает точность модели и $\frac{1 + \frac{n p}{N}}{1 - \frac{n p}{N}}$ описывает сложность модели.
Путем сравнения моделей с помощью этих критериев можно выбрать модель, которая дает лучшее (наименьшее значение критерия) компромисс между точностью и сложностью.

Метрика качества	Описание
`FitPercent`	Нормированная среднеквадратическая ошибка (NRMSE), описанная как процент, заданный как: $F i t P e r c e n t = 100 (1 - \frac{‖ y_{m e a s u r e d} - y_{m o d e l} ‖}{‖ y_{m e a s u r e d} - \bar{y_{m e a s u r e d}} ‖})$ где: _{Измеренный} y является измеренными выходными данными. $\bar{y_{m e a s u r e d}}$ его (мудрое каналом) среднее значение. _Модель y является симулированным или предсказанным ответом модели, которой управляет `Focus`. \|\|. \|\| указывает на 2-норму вектора. `FitPercent` варьируется между `-Inf` (плохая подгонка) к 100 (совершенная подгонка). Если значение равно нулю, то модель не лучше в подборе кривой результатам измерений, чем прямая линия, равная среднему значению данных.
`LossFcn`	Значение функции потерь, когда оценка завершается. Это содержит эффекты порогов ошибок, выходного веса и регуляризации, используемой для оценки.
`MSE`	Мера по Среднеквадратической ошибке, заданная как: $M S E = \frac{1}{N} \sum_{t = 1}^{N} e^{T} (t) e (t)$ где: e (t) является сигналом, норма которого минимизирована для оценки. N является количеством выборок данных в наборе данных оценки.
`FPE`	Итоговая ошибка предсказания (FPE) Акэйка, заданная как: $F P E = d e t (\frac{1}{N} E^{T} E) (\frac{1 + \frac{n_{p}}{N}}{1 - \frac{n_{p}}{N}})$ где: _np является количеством свободных параметров в модели. _np включает количество предполагаемых начальных состояний. N является количеством выборок в наборе данных оценки. E является N-by-_ny матрица ошибок предсказания, где _ny является количеством выходных каналов.
`AIC`	Необработанная мера информационного Критерия Акэйка, заданного как: $A I C = N * l o g (d e t (\frac{1}{N} E^{T} E)) + 2 * n_{p} + N (n_{y} * \log (2 π) + 1)$
`AICc`	Маленький объем выборки откорректировал информационный Критерий Акэйка, заданный как: $A I C c = A I C + 2 * n_{p} * \frac{(n_{p} + 1)}{(N - n_{p} - 1)}$ Эта метрика часто более надежна для выбора модели оптимальной сложности из списка моделей кандидата, когда размер данных N мал.
`nAIC`	Нормированная мера информационного Критерия Акэйка, заданного как: $n A I C = l o g (d e t (\frac{1}{N} E^{T} E)) + \frac{2 * n_{p}}{N}$
`BIC`	Байесов информационный Критерий, заданный как: $B I C = N * l o g (d e t (\frac{1}{N} E^{T} E)) + N * (n_{y} * \log (2 π) + 1) + n_{p} * журнал (N)$

Документация