Оценка качества подгонки

Как оценить качество подгонки

После подходящих данных с одной или несколькими моделями необходимо оценить качество подгонки. Визуальное исследование кривой по экспериментальным точкам, отображенной в приложении Curve Fitting, должно быть вашим первым шагом. Кроме того, тулбокс предоставляет эти методы, чтобы оценить качество подгонки и для линейных и для нелинейных параметрических подгонок:

Как распространено в статистической литературе, термин качество подгонки используется здесь в нескольких смыслах: “хорошая подгонка” может быть моделью

  • то, что ваши данные, возможно, обоснованно прибыли из, учитывая предположения о подборе кривой наименьших квадратов

  • в котором коэффициенты модели могут быть оценены с небольшой неопределенностью

  • это объясняет высокий процент изменчивости в ваших данных и может предсказать новые наблюдения с высокой уверенностью

Конкретное приложение может продиктовать все еще другие аспекты модели, соответствующей, которые важны для достижения хорошей подгонки, таковы как простая модель, которую легко интерпретировать. Методы, описанные здесь, могут помочь вам определить качество подгонки во всех этих смыслах.

Эти методы группа в два типа: графический и числовой. Графический вывод остаточных значений и границ предсказания является графическими методами, которые помогают визуальной интерпретации, в то время как вычислительная статистика качества подгонки и содействующие доверительные границы дают к числовым мерам, которые помогают статистическому обоснованию.

Вообще говоря, графические меры более выгодны, чем числовые меры, потому что они позволяют вам просматривать целый набор данных целиком, и они могут легко отобразить широкий спектр отношений между моделью и данными. Числовые меры более узко фокусируются на конкретном аспекте данных и часто пытаются сжать ту информацию в один номер. На практике, в зависимости от ваших данных и аналитических требований, вы можете должны быть использовать оба типа, чтобы определить лучшую подгонку.

Обратите внимание на то, что возможно, что ни одна из ваших подгонок не может быть рассмотрена подходящей для ваших данных, на основе этих методов. В этом случае может случиться так, что необходимо выбрать различную модель. Также возможно, что все меры качества подгонки указывают, что конкретная подгонка подходит. Однако, если ваша цель состоит в том, чтобы извлечь адаптированные коэффициенты, которые имеют физический смысл, но ваша модель не отражает физику данных, получившиеся коэффициенты бесполезны. В этом случае понимание, что представляют ваши данные и как это было измерено, так же важно как оценка качества подгонки.

Статистика качества подгонки

После использования графических методов, чтобы оценить качество подгонки, необходимо исследовать статистику качества подгонки. Программное обеспечение Curve Fitting Toolbox™ поддерживает эти статистические данные качества подгонки для параметрических моделей:

  • Сумма квадратов из-за ошибки (SSE)

  • R-квадрат

  • Настроенный R-квадрат

  • Среднеквадратическая ошибка (RMSE)

Для текущей подгонки эти статистические данные отображены в панели Результатов в приложении Curve Fitting. Поскольку все помещаются в текущий сеанс подбора кривых, можно сравнить статистику качества подгонки в Таблице подгонок.

Получить статистику качества подгонки в командной строке, также:

  • В приложении Curve Fitting выберите Fit> Save to Workspace, чтобы экспортировать вашу подгонку и качество подгонки к рабочей области.

  • Задайте gof выходной аргумент с fit функция.

Сумма квадратов из-за ошибки

Эта статистическая величина измеряет общее отклонение значений отклика от подгонки до значений отклика. Это также называется суммированным квадратом остаточных значений и обычно помечается как SSE.

SSE=i=1nwi(yiy^i)2

Значение ближе к 0 указывает, что модель имеет меньший компонент случайной ошибки, и что подгонка будет более полезна для предсказания.

R-квадрат

Эта статистическая величина измеряется, насколько успешный подгонка находится в объяснении изменения данных. Другими словами R-квадрат является квадратом корреляции между значениями отклика и предсказанными значениями отклика. Это также называется квадратом коэффициента кратной корреляции и коэффициента нескольких определением.

R-квадрат задан как отношение суммы квадратов регрессии (SSR) и полная сумма квадратов (SST). SSR задан как

SSR=i=1nwi(y^iy¯)2

SST также звонят сумма квадратов по поводу о среднем значении и задают как

SST=i=1nwi(yiy¯)2

где SST = SSR + SSE. Учитывая эти определения, R-квадрат описывается как

R-square=SSRSST=1SSESST

R-квадрат может взять любое значение между 0 и 1 со значением ближе к 1 указанию, что большая пропорция отклонения составляется моделью. Например, значение R-квадрата 0,8234 средних значений, что подгонка объясняет 82,34% общего изменения данных о среднем значении.

Если вы увеличите количество коэффициентов уравнения аппроксимации в своей модели, R-квадрат увеличится несмотря на то, что подгонка не может улучшиться в практическом смысле. Чтобы избежать этой ситуации, необходимо использовать скорректированную статистическую величину R-квадрата степеней свободы, описанную ниже.

Обратите внимание на то, что возможно получить отрицательный R-квадрат для уравнений, которые не содержат постоянный термин. Поскольку R-квадрат задан как пропорция отклонения, объясненного подгонкой, если подгонка на самом деле хуже, чем только подбор кривой горизонтальной линии затем, R-квадрат отрицателен. В этом случае R-квадрат не может быть интерпретирован как квадрат корреляции. Такие ситуации указывают, что постоянный термин должен быть добавлен к модели.

Скорректированный по степеням свободы R-квадрат

Эта статистическая величина использует статистическую величину R-квадрата, заданную выше, и настраивает ее на основе остаточных степеней свободы. Остаточные степени свободы заданы как количество значений отклика n минус количество коэффициентов уравнения аппроксимации m, оцененный от значений отклика.

v = nm

v указывает на количество независимых данных, включающих точки данных n, которые требуются, чтобы вычислять сумму квадратов. Обратите внимание на то, что, если параметры ограничены, и один или несколько оценок в их границах, то те оценки расцениваются, как зафиксировано. Степени свободы увеличены на количество таких параметров.

Скорректированная статистическая величина R-квадрата является обычно лучшим индикатором подходящего качества, когда вы сравниваете две модели, которые вкладываются — то есть, ряд моделей, каждая из которых добавляет дополнительные коэффициенты в предыдущую модель.

adjusted R-square=1SSE(n1)SST(v)

Скорректированная статистическая величина R-квадрат может иметь любое значение, меньше чем или равное 1 со значением ближе к 1, указывающими на лучшую аппроксимацию. Отрицательные величины могут произойти, когда модель содержит термины, которые не помогают предсказать ответ.

Среднеквадратическая ошибка

Эта статистическая величина также известна как стандартная ошибка аппроксимации и стандартная ошибка регрессии. Это - оценка стандартного отклонения случайного компонента в данных, и определяется как

RMSE=s=MSE

где MSE является среднеквадратичной погрешностью или остаточным средним квадратичным

MSE=SSEv

Так же, как с SSE, значение MSE ближе к 0 указывает на подгонку, которая более полезна для предсказания.

Смотрите также

Похожие темы

Для просмотра документации необходимо авторизоваться на сайте