В этом примере показано, как отобразить и интерпретировать статистику выхода линейной регрессии.
Загрузите carsmall
набор данных, матричный набор входных данных.
load carsmall
X = [Weight,Horsepower,Acceleration];
Подбор линейной регрессионой модели при помощи fitlm
.
lm = fitlm(X,MPG)
lm = Linear regression model: y ~ 1 + x1 + x2 + x3 Estimated Coefficients: Estimate SE tStat pValue __________ _________ _________ __________ (Intercept) 47.977 3.8785 12.37 4.8957e-21 x1 -0.0065416 0.0011274 -5.8023 9.8742e-08 x2 -0.042943 0.024313 -1.7663 0.08078 x3 -0.011583 0.19333 -0.059913 0.95236 Number of observations: 93, Error degrees of freedom: 89 Root Mean Squared Error: 4.09 R-squared: 0.752, Adjusted R-Squared: 0.744 F-statistic vs. constant model: 90, p-value = 7.38e-27
Отображение модели включает формулу модели, оценочные коэффициенты и сводную статистику модели.
Формула модели на отображении, y ~ 1 + x1 + x2 + x3
, соответствует .
На отображении модели показана информация об оцененном коэффициенте, которая хранится в Coefficients
свойство. Отобразите Coefficients
свойство.
lm.Coefficients
ans=4×4 table
Estimate SE tStat pValue
__________ _________ _________ __________
(Intercept) 47.977 3.8785 12.37 4.8957e-21
x1 -0.0065416 0.0011274 -5.8023 9.8742e-08
x2 -0.042943 0.024313 -1.7663 0.08078
x3 -0.011583 0.19333 -0.059913 0.95236
The Coefficient
свойство включает в себя следующие столбцы:
Estimate
- Оценки коэффициентов для каждого соответствующего члена в модели. Для примера - оценка для постоянного члена (intercept
) составляет 47,977.
SE
- Стандартная ошибка коэффициентов.
tStat
- t-статистическая для каждого коэффициента, чтобы проверить нулевую гипотезу о том, что соответствующий коэффициент равен нулю по сравнению с альтернативой, что он отличается от нуля, учитывая другие предикторы в модели. Обратите внимание, что tStat = Estimate/SE
. Для примера t-статистическая величина для точки пересечения составляет 47,977/3,8785 = 12,37.
pValue
- p-значение для t-статистики критерия гипотезы о том, что соответствующий коэффициент равен нулю или не равен. Например, p-значение t-статистики для x2
больше 0,05, поэтому этот термин не является значимым на уровне значимости 5%, учитывая другие членов в модели.
Сводная статистика модели:
Number of observations
- Количество строк без каких-либо NaN
значения. Для примера, Number of observations
93, потому что MPG
вектор данных имеет шесть NaN
значения и Horsepower
вектор данных имеет одно NaN
значение для другого наблюдения, где количество строк в X
и MPG
равен 100.
Error degrees of freedom
- n - p, где n - количество наблюдений, а p - количество коэффициентов в модели, включая точку пересечения. Для примера модель имеет четыре предиктора, поэтому Error degrees of freedom
93 - 4 = 89.
Root mean squared error
- Квадратный корень средней квадратичной невязки, который оценивает стандартное отклонение распределения ошибок.
R-squared
и Adjusted R-squared
- Коэффициент детерминации и скорректированный коэффициент детерминации, соответственно. Для примера, R-squared
значение предполагает, что модель объясняет приблизительно 75% изменчивости переменной отклика MPG
.
F-statistic vs. constant model
- Тестовая статистика для F-теста на регрессионой модели, которая проверяет, подходит ли модель значительно лучше, чем вырожденная модель, состоящая только из постоянного члена.
p-value
- p-значение для F-теста на модели. Для примера модель значима с p-значением 7.3816e-27.
Выполните дисперсионный анализ (ANOVA) для модели.
anova(lm,'summary')
ans=3×5 table
SumSq DF MeanSq F pValue
______ __ ______ ______ __________
Total 6004.8 92 65.269
Model 4516 3 1505.3 89.987 7.3816e-27
Residual 1488.8 89 16.728
Этот anova
отображение показывает следующее.
SumSq
- Сумма квадратов для регрессионной модели, Model
, термин ошибки, Residual
и общее, Total
.
DF
- Степени свободы для каждого термина. Степени свободы есть на общую сумму, для модели, и для термина ошибки, где количество наблюдений, и - количество коэффициентов в модели, включая точку пересечения. Для примера, MPG
вектор данных имеет шесть NaN
значения и один из векторов данных, Horsepower
, имеет одно NaN
значение для другого наблюдения, поэтому общие степени свободы составляют 93 - 1 = 92. В модели четыре коэффициента, поэтому модель DF
равен 4 - 1 = 3, и DF
для условия ошибки 93 - 4 = 89.
MeanSq
- Средняя квадратичная невязка для каждого члена. Обратите внимание, что MeanSq = SumSq/DF
. Для примера средняя квадратичная невязка для члена ошибки является 1488,8/89 = 16,728. Квадратный корень этого значения является root mean squared error
на линейном регрессионном отображении, или 4.09.
F
- F-статистическое значение, которое совпадает с F-statistic vs. constant model
в линейном регрессионном отображении. В этом примере это 89,987, и в линейном регрессионном дисплее это F-статистическое значение округлится до 90.
pValue
- p-значение для F-теста на модели. В этом примере это 7.3816e-27.
Если в регрессионной модели есть условия более высокого порядка, anova
разделяет модель на SumSq
в часть, объясненную терминами более высокого порядка и рест. Соответствующие F-статистические данные предназначены для проверки значимости линейных терминов и терминов более высокого порядка как отдельных групп.
Если данные включают повторения или несколько измерений с одинаковыми значениями предиктора, то anova
разделяет ошибку SumSq
в деталь для репликаций и восстановления. Соответствующая F-статистика предназначена для проверки несоответствия путем сравнения невязок модели с оценкой отклонения без моделей, вычисленной на репликатах.
Разложите таблицу ANOVA для членов модели.
anova(lm)
ans=4×5 table
SumSq DF MeanSq F pValue
________ __ ________ _________ __________
x1 563.18 1 563.18 33.667 9.8742e-08
x2 52.187 1 52.187 3.1197 0.08078
x3 0.060046 1 0.060046 0.0035895 0.95236
Error 1488.8 89 16.728
Этот anova
отображение показывает следующее:
Первый столбец - Условия, включенные в модель.
SumSq
- Сумма квадратной ошибки для каждого члена, кроме константы.
DF
- Степени свободы. В этом примере DF
равен 1 для каждого члена в модели и для термина ошибки, где количество наблюдений, и - количество коэффициентов в модели, включая точку пересечения. Для примера, DF
для члена ошибки в этой модели 93 - 4 = 89. Если какая-либо из переменных в модели является категориальной переменной, DF
для этой переменной является количество переменных индикатора, созданных для ее категорий (количество категорий - 1).
MeanSq
- Средняя квадратичная невязка для каждого члена. Обратите внимание, что MeanSq = SumSq/DF
. Для примера средняя квадратичная невязка для члена ошибки является 1488,8/89 = 16,728.
F
- значения F для каждого коэффициента. F-значение является отношением среднего квадрата каждого члена и средней квадратичной невязки, то есть F = MeanSq(xi)/MeanSq(Error)
. Каждая F-статистическая величина имеет F- распределения со степенями свободы числителя DF
значение для соответствующего термина и знаменательные степени свободы, . количество наблюдений, и - количество коэффициентов в модели. В этом примере каждая F-статистика имеет распределение.
pValue
- p-значение для каждого теста гипотезы на коэффициенте соответствующего члена в линейной модели. Для примера значение p для F-статистического коэффициента x2
составляет 0,08078 и не является значимым на уровне 5% значимости, учитывая другие членов в модели.
Отображение интервалы доверия коэффициентов.
coefCI(lm)
ans = 4×2
40.2702 55.6833
-0.0088 -0.0043
-0.0913 0.0054
-0.3957 0.3726
Значения в каждой строке являются нижним и верхним пределами доверия, соответственно, для интервалов по умолчанию 95% доверия для коэффициентов. Например, первая строка показывает нижний и верхний пределы 40.2702 и 55.6833 для точки пересечения, . Аналогично, вторая строка показывает пределы для и так далее. Доверительные интервалы обеспечивают меру точности для оценок линейного коэффициента регрессии. A Доверие интервал задает область значений, с которой будет работать соответствующий коэффициент регрессии доверие.
Можно также изменить уровень доверия. Найдите 99% доверительные интервалы для коэффициентов.
coefCI(lm,0.01)
ans = 4×2
37.7677 58.1858
-0.0095 -0.0036
-0.1069 0.0211
-0.5205 0.4973
Протестируйте нулевую гипотезу о том, что все коэффициенты переменной предиктора равны нулю по сравнению с альтернативной гипотезой о том, что, по крайней мере, один из них отличается от нуля.
[p,F,d] = coefTest(lm)
p = 7.3816e-27
F = 89.9874
d = 3
Здесь, coefTest
выполняет F-критерий для гипотезы о том, что все коэффициенты регрессии (за исключением точки пересечения) являются нулем против, по крайней мере, одного отличается от нуля, что по существу является гипотезой на модели. Возвращается , значение p, F
, F-статистическая, и d
, степени свободы числителя. F-статистическое и p-значение те же, что и таковые в линейной регрессии отображения и anova
для модели. Степени свободы 4 - 1 = 3, потому что в модели есть четыре предиктора (включая точку пересечения).
Теперь выполните проверку гипотезы коэффициентов первой и второй переменных предиктора.
H = [0 1 0 0; 0 0 1 0]; [p,F,d] = coefTest(lm,H)
p = 5.1702e-23
F = 96.4873
d = 2
Степени свободы числителя являются количеством проверенных коэффициентов, что равняется 2 в этом примере. Результаты показывают, что, по крайней мере, один из и отличается от нуля.
anova
| fitlm
| LinearModel
| stepwiselm