После подгонки данных с одной или несколькими моделями следует оценить качество подгонки. Визуальный осмотр подогнанной кривой, отображаемой в приложении «Фитинг кривой», должен быть первым шагом. Кроме того, инструментарий предоставляет следующие методы для оценки соответствия как линейным, так и нелинейным параметрическим посадкам:
Как принято в статистической литературе, термин goodness of fit используется здесь в нескольких смыслах: «хороший fit» может быть моделью
что ваши данные могли разумно исходить, учитывая предположения о подгонке наименьших квадратов
в котором коэффициенты модели могут быть оценены с небольшой неопределенностью
это объясняет высокую долю изменчивости ваших данных и может предсказывать новые наблюдения с высокой достоверностью
Конкретное приложение может диктовать другие аспекты подгонки модели, которые важны для достижения хорошей подгонки, такие как простая модель, которую легко интерпретировать. Описанные здесь методы могут помочь вам определить доброту посадки во всех этих смыслах.
Эти методы группируются в два типа: графический и числовой. Отображение остатков и границ прогнозирования - это графические методы, которые помогают визуальной интерпретации, в то время как вычисление статистики соответствия и доверительных границ коэффициентов дает численные показатели, которые помогают статистическому рассуждению.
Вообще говоря, графические измерения более выгодны, чем числовые, поскольку они позволяют просматривать весь набор данных одновременно, и они могут легко отображать широкий диапазон взаимосвязей между моделью и данными. Численные показатели более узко ориентированы на конкретный аспект данных и часто пытаются сжать эту информацию в единое число. На практике, в зависимости от данных и требований анализа, может потребоваться использовать оба типа для определения наилучшего соответствия.
Следует отметить, что на основе этих методов ни одна из посадок не может считаться подходящей для данных. В этом случае может потребоваться выбрать другую модель. Также возможно, что все меры по обеспечению пригодности указывают на то, что подходит конкретная пригодность. Однако если цель состоит в том, чтобы извлечь подходящие коэффициенты, которые имеют физический смысл, но модель не отражает физику данных, результирующие коэффициенты бесполезны. В этом случае понимание того, что представляют ваши данные и как они были измерены, так же важно, как и оценка благости соответствия.
После использования графических методов для оценки качества посадки необходимо изучить статистику соответствия. Программное обеспечение Curve Fitting Toolbox™ поддерживает следующие статистические данные о соответствии для параметрических моделей:
Сумма квадратов из-за ошибки (SSE)
R-квадрат
Скорректированный R-квадрат
Среднеквадратическая ошибка корня (RMSE)
Для текущего вписывания эти статистические данные отображаются на панели Результаты (Results) в приложении Фитинг кривой (Curve Fitting). Для всех вписываний в текущем сеансе фитинга кривой можно сравнить статистику соответствия в Таблице вписок (Table of fits).
Чтобы получить статистику соответствия в командной строке, выполните одно из следующих действий:
В приложении «Фитинг кривой» выберите «Вписать» > «Сохранить в рабочую область», чтобы экспортировать в рабочую область подгонку и полноту подгонки.
Укажите gof выходной аргумент с fit функция.
Эта статистика измеряет полное отклонение значений отклика от значений соответствия к значениям ответа. Он также называется суммируемым квадратом остатков и обычно обозначается как SSE.
^ i) 2
Значение, близкое к 0, указывает, что модель имеет меньший компонент случайной ошибки, и что подгонка будет более полезной для прогнозирования.
Эта статистика измеряет, насколько успешно аппроксимация объясняет изменение данных. Другими словами, R-квадрат является квадратом корреляции между значениями отклика и прогнозируемыми значениями отклика. Он также называется квадратом коэффициента множественной корреляции и коэффициентом множественного определения.
R-квадрат определяется как отношение суммы квадратов регрессии (SSR) и общей суммы квадратов (SST). SSR определяется как
y) 2
SST также называется суммой квадратов о среднем и определяется как
2
где SST = SSR + SSE. Учитывая эти определения, R-квадрат выражается как
SSESST
R-квадрат может принимать любое значение между 0 и 1, причем значение ближе к 1 указывает на то, что модель учитывает большую долю дисперсии. Например, значение R-квадрата, равное 0,8234, означает, что подгонка объясняет 82,34% от общего отклонения данных относительно среднего значения.
Если вы увеличите количество подогнанных коэффициентов в модели, R-квадрат увеличится, хотя посадка может не улучшиться в практическом смысле. Чтобы избежать этой ситуации, следует использовать приведенную ниже статистику R-квадратных степеней свободы.
Заметим, что можно получить отрицательный R-квадрат для уравнений, не содержащих постоянного члена. Поскольку R-квадрат определяется как доля дисперсии, объясняемая аппроксимацией, если аппроксимация на самом деле хуже, чем просто аппроксимация горизонтальной линии, то R-квадрат отрицателен. В этом случае R-квадрат не может быть интерпретирован как квадрат корреляции. Такие ситуации указывают на то, что в модель следует добавить постоянный термин.
Эта статистика использует R-квадратную статистику, определенную выше, и корректирует ее на основе остаточных степеней свободы. Остаточные степени свободы определяются как количество значений отклика n минус количество установленных коэффициентов m, оцененных из значений отклика.
v = n - m
v указывает количество независимых частей информации, включающей n точек данных, которые требуются для вычисления суммы квадратов. Следует отметить, что если параметры ограничены и одна или несколько оценок находятся на своих границах, то эти оценки рассматриваются как фиксированные. Степени свободы увеличиваются на количество таких параметров.
Скорректированная R-квадратная статистика, как правило, является лучшим показателем качества посадки при сравнении двух вложенных моделей, то есть серии моделей, каждая из которых добавляет дополнительные коэффициенты к предыдущей модели.
) SST (v)
Скорректированная статистика R-квадрата может принимать любое значение, меньшее или равное 1, причем значение ближе к 1 указывает на лучшую подгонку. Отрицательные значения могут возникать, когда модель содержит термины, которые не помогают предсказать ответ.
Эта статистика также известна как стандартная ошибка подгонки и стандартная ошибка регрессии. Это оценка стандартного отклонения случайной составляющей в данных и определяется как
MSE
где MSE - среднеквадратическая ошибка или остаточное среднеквадратичное значение
SSEv
Подобно SSE, значение MSE, близкое к 0, указывает на соответствие, которое более полезно для прогнозирования.