Остаточный анализ

Графическое изображение и анализ невязок

Невязки из подобранной модели заданы как различия между данными отклика и подгонкой к данным отклика при каждом значении предиктора.

остаточный = данные - подгонка

Вы отображаете невязки в приложении Аппроксимирование Кривыми, выбирая кнопку на панели инструментов или элемент меню View > Residuals Plot.

Математически, невязкой для определенного значения предиктора является различие между значением отклика y и предсказанным значением отклика ŷ.

r = yŷ

Принимая модель, которую вы подбираете к данным, правильно, невязки аппроксимируют случайные ошибки. Поэтому, если невязки, по-видимому, ведут себя случайным образом, это предполагает, что модель хорошо подходит к данным. Однако, если невязки отображают систематический шаблон, это явный признак того, что модель плохо подходит к данным. Всегда имейте в виду, что многие результаты подбора кривой модели, такие как доверительные границы, будут недействительными, если модель будет грубо неуместной для данных.

Графическое отображение невязок для аппроксимации полиномом первой степени показано ниже. Верхний график показывает, что невязки вычисляются как вертикальное расстояние от точки данных до подобранной кривой. На графике внизу отображаются невязки относительно подгонки, которая является нулевой линией.

Невязки появляются случайным образом разбросанными вокруг нуля, что указывает на то, что модель хорошо описывает данные.

Графическое отображение невязок для аппроксимации полиномом второй степени показано ниже. Модель включает только квадратичный член и не включает линейный или постоянный член.

Невязки систематически положительны для большей части области значений данных, что указывает на то, что эта модель плохо подходит для данных.

Пример: Остаточный анализ

Этот пример подгоняет несколько полиномиальных моделей к сгенерированным данным и оценивает, насколько хорошо эти модели соответствуют данным и как точно они могут предсказать. Данные генерируются из кубической кривой, и существует большая погрешность в области значений переменной x, где нет данных.

x = [1:0.1:3 9:0.1:10]';
c = [2.5 -0.5 1.3 -0.1]; 
y = c(1) + c(2)*x + c(3)*x.^2 + c(4)*x.^3 + (rand(size(x))-0.5);

Подгонка данных в приложении Аппроксимирование Кривыми с помощью кубического полинома и полинома пятой степени. Данные, подгонки и невязки показаны ниже. Отобразите невязки в приложении Аппроксимирование Кривыми, выбрав View > Residuals Plot.

Обе модели, по-видимому, хорошо соответствуют данным, а невязки распределены случайным образом вокруг нуля. Поэтому графическая оценка подгонки не обнаруживает каких-либо очевидных различий между этими двумя уравнениями.

Посмотрите на результаты численного подгонки на панели Results и сравните доверительные границы для коэффициентов.

Результаты показывают, что коэффициенты кубического соответствия точно известны (границы малы), в то время как коэффициенты квинтовой подгонки точно не известны. Как и ожидалось, результаты подгонки для poly3 являются разумными, потому что сгенерированные данные следуют кубической кривой. 95% доверительные ограничения установленных коэффициентов указывают, что они приемлемо точны. Однако 95% доверительных границ для poly5 указать, что установленные коэффициенты точно неизвестны.

Статистика качества подгонки показана в таблице подгонки. По умолчанию скорректированные статистические данные R-квадрат и RMSE отображаются в таблице. Статистика не показывает существенного различия между этими двумя уравнениями. Чтобы выбрать статистику для отображения или скрытия, щелкните правой кнопкой мыши заголовки столбцов.

95% несовпадающих границ предсказания для новых наблюдений показаны ниже. Чтобы отобразить границы предсказания в приложении Аппроксимирование Кривыми, выберите Tools > Prediction Bounds > 95%.

Границы предсказания для poly3 указывают, что новые наблюдения могут быть предсказаны с небольшой неопределенностью во всей области значений данных. Это не так для poly5. Он имеет более широкие границы предсказания в области, где нет данных, очевидно, потому что данные не содержат достаточной информации, чтобы точно оценить полиномиальные условия более высокой степени. Другими словами, полином пятой степени перегружает данные.

95% -ные ограничения предсказания для установленной функции с помощью poly5 показаны ниже. Как видим, неопределенность в предсказании функции велика в центре данных. Поэтому вы пришли бы к выводу, что необходимо собрать больше данных, прежде чем можно будет делать точные предсказания с помощью полинома пятой степени.

В заключение, вы должны изучить все доступные меры качества подгонки, прежде чем принимать решение о подгонке, который лучше всего подходит для ваших целей. Графическое изучение подгонки и невязок должно всегда быть вашим начальным подходом. Однако некоторые характеристики аппроксимации раскрываются только через числовые результаты подгонки, статистику и границы предсказания.