Оценка качества подгонки

Как оценить качество подгонки

После подходящих данных с одной или несколькими моделями необходимо оценить качество подгонки. Визуальное исследование кривой по экспериментальным точкам, отображенной в приложении Curve Fitting, должно быть вашим первым шагом. Кроме того, тулбокс предоставляет эти методы, чтобы оценить качество подгонки и для линейных и для нелинейных параметрических подгонок:

Как распространено в статистической литературе, термин качество подгонки используется здесь в нескольких смыслах: “хорошая подгонка” может быть моделью

то, что ваши данные, возможно, обоснованно прибыли из, учитывая предположения о подборе кривой наименьших квадратов
в котором коэффициенты модели могут быть оценены с небольшой неуверенностью
это объясняет высокий процент изменчивости в ваших данных и может предсказать новые наблюдения с высокой уверенностью

Конкретное приложение может продиктовать все еще другие аспекты модели, соответствующей, которые важны для достижения хорошей подгонки, таковы как простая модель, которую легко интерпретировать. Методы, описанные здесь, могут помочь вам определить качество подгонки во всех этих смыслах.

Эти методы группа в два типа: графический и числовой. Графический вывод невязок и границ прогноза является графическими методами, которые помогают визуальной интерпретации, в то время как вычислительная статистика качества подгонки и содействующие доверительные границы приводят к числовым мерам, которые помогают статистическому обоснованию.

Вообще говоря, графические меры более выгодны, чем числовые меры, потому что они позволяют вам просматривать целый набор данных целиком, и они могут легко отобразить широкий спектр отношений между моделью и данными. Числовые меры более узко фокусируются на конкретном аспекте данных и часто пытаются сжать ту информацию в один номер. На практике, в зависимости от ваших данных и аналитических требований, вы можете должны быть использовать оба типа, чтобы определить лучшую подгонку.

Обратите внимание на то, что возможно, что ни одна из ваших подгонок не может быть рассмотрена подходящей для ваших данных, на основе этих методов. В этом случае может случиться так, что необходимо выбрать различную модель. Также возможно, что все меры качества подгонки указывают, что конкретная подгонка подходит. Однако, если ваша цель состоит в том, чтобы извлечь адаптированные коэффициенты, которые имеют физический смысл, но ваша модель не отражает физику данных, получившиеся коэффициенты бесполезны. В этом случае понимание, что представляют ваши данные и как это было измерено, так же важно как оценка качества подгонки.

Статистика качества подгонки

После использования графических методов, чтобы оценить качество подгонки, необходимо исследовать статистику качества подгонки. Программное обеспечение Curve Fitting Toolbox™ поддерживает эти статистические данные качества подгонки для параметрических моделей:

Сумма квадратов из-за ошибки (SSE)
R-квадрат
Настроенный R-квадрат
Среднеквадратическая ошибка (RMSE)

Для текущей подгонки эти статистические данные отображены в панели Результатов в приложении Curve Fitting. Поскольку все помещаются в текущий сеанс подбора кривых, можно сравнить статистику качества подгонки в Таблице подгонок.

Получить статистику качества подгонки в командной строке, также:

В приложении Curve Fitting выберите Fit> Save to Workspace, чтобы экспортировать вашу подгонку и качество подгонки к рабочей области.
Задайте выходной аргумент gof с функцией fit.

Сумма квадратов из-за ошибки

Эта статистическая величина измеряет общее отклонение значений ответа от подгонки до значений ответа. Это также называется суммированным квадратом невязок и обычно маркируется как SSE.

$S S E = \sum_{i = 1}^{n} w_{i} {(y_{i} - {\hat{y}}_{i})}^{2}$

Значение ближе к 0 указывает, что модель имеет меньший компонент случайной ошибки, и что подгонка будет более полезна для прогноза.

R-квадрат

Эта статистическая величина измеряется, насколько успешный подгонка находится в объяснении изменения данных. Другими словами R-квадрат является квадратом корреляции между значениями ответа и предсказанными значениями ответа. Это также называется квадратом коэффициента кратной корреляции и коэффициента нескольких определением.

R-квадрат задан как отношение суммы квадратов регрессии (SSR) и полная сумма квадратов (SST). SSR задан как

$S S R = \sum_{i = 1}^{n} w_{i} {({\hat{y}}_{i} - \bar{y})}^{2}$

SST также звонят сумма квадратов по поводу о среднем значении и задают как

$S S T = \sum_{i = 1}^{n} w_{i} {(y_{i} - \bar{y})}^{2}$

где SST = SSR + SSE. Учитывая эти определения, R-квадрат выражается как

$R-квадрат = \frac{S S R}{S S T} = 1 - \frac{S S E}{S S T}$

R-квадрат может взять любое значение между 0 и 1 со значением ближе к 1 указанию, что большая пропорция отклонения составляется моделью. Например, значение R-квадрата 0,8234 средних значений, что подгонка объясняет 82,34% общего изменения в данных о среднем значении.

Если вы увеличите число приспособленных коэффициентов в вашей модели, R-квадрат увеличится несмотря на то, что подгонка не может улучшиться в практическом смысле. Чтобы избежать этой ситуации, необходимо использовать настроенную статистическую величину R-квадрата степеней свободы, описанную ниже.

Обратите внимание на то, что возможно получить отрицательный R-квадрат для уравнений, которые не содержат постоянный термин. Поскольку R-квадрат задан как пропорция отклонения, объясненного подгонкой, если подгонка на самом деле хуже, чем только подбор кривой горизонтальной строке затем, R-квадрат отрицателен. В этом случае R-квадрат не может быть интерпретирован как квадрат корреляции. Такие ситуации указывают, что постоянный термин должен быть добавлен к модели.

Степени свободы настроенный R-квадрат

Эта статистическая величина использует статистическую величину R-квадрата, заданную выше, и настраивает ее на основе остаточных степеней свободы. Остаточные степени свободы заданы как количество значений ответа n минус количество подходящих коэффициентов m, оцененный от значений ответа.

v = n – m

v указывает на количество независимых данных, включающих точки данных n, которые требуются, чтобы вычислять сумму квадратов. Обратите внимание на то, что, если параметры ограничены, и один или несколько оценок в их границах, то те оценки расцениваются, как зафиксировано. Степени свободы увеличены количеством таких параметров.

Настроенная статистическая величина R-квадрата является обычно лучшим индикатором подходящего качества, когда вы сравниваете две модели, которые вкладываются — то есть, ряд моделей, каждая из которых добавляет дополнительные коэффициенты в предыдущую модель.

$настроенный R-квадрат = 1 - \frac{S S E (n - 1)}{S S T (v)}$

Настроенная статистическая величина R-квадрата может взять любое значение, меньше чем или равное 1 со значением ближе к 1 указанию на лучшую подгонку. Отрицательные величины могут произойти, когда модель содержит условия, которые не помогают предсказать ответ.

Среднеквадратическая ошибка

Эта статистическая величина также известна как подходящую стандартную погрешность и стандартную погрешность регрессии. Это - оценка стандартного отклонения случайного компонента в данных и задано как

$R M S E = s = \sqrt{M S E}$

где MSE является среднеквадратичной погрешностью или остаточным средним квадратичным

$M S E = \frac{S S E}{v}$

Так же, как с SSE, значение MSE ближе к 0 указывает на подгонку, которая более полезна для прогноза.

Смотрите также

fit

Документация