В этом примере показано, как отображать и интерпретировать выходную статистику линейной регрессии.
Загрузить carsmall набор данных, набор матричных входных данных.
load carsmall
X = [Weight,Horsepower,Acceleration];Подгонка модели линейной регрессии с помощью fitlm.
lm = fitlm(X,MPG)
lm =
Linear regression model:
y ~ 1 + x1 + x2 + x3
Estimated Coefficients:
Estimate SE tStat pValue
__________ _________ _________ __________
(Intercept) 47.977 3.8785 12.37 4.8957e-21
x1 -0.0065416 0.0011274 -5.8023 9.8742e-08
x2 -0.042943 0.024313 -1.7663 0.08078
x3 -0.011583 0.19333 -0.059913 0.95236
Number of observations: 93, Error degrees of freedom: 89
Root Mean Squared Error: 4.09
R-squared: 0.752, Adjusted R-Squared: 0.744
F-statistic vs. constant model: 90, p-value = 7.38e-27
Отображение модели включает формулу модели, оценочные коэффициенты и сводную статистику модели.
Формула модели на дисплее, y ~ 1 + x1 + x2 + x3, соответствует .
На дисплее модели отображается оценочная информация коэффициента, которая хранится в Coefficients собственность. Отображение Coefficients собственность.
lm.Coefficients
ans=4×4 table
Estimate SE tStat pValue
__________ _________ _________ __________
(Intercept) 47.977 3.8785 12.37 4.8957e-21
x1 -0.0065416 0.0011274 -5.8023 9.8742e-08
x2 -0.042943 0.024313 -1.7663 0.08078
x3 -0.011583 0.19333 -0.059913 0.95236
Coefficient свойство включает следующие столбцы:
Estimate - оценки коэффициентов для каждого соответствующего члена в модели. Например, оценка для постоянного члена (intercept) составляет 47,977.
SE - Стандартная погрешность коэффициентов.
tStat - t-статистика для каждого коэффициента, чтобы проверить нулевую гипотезу, что соответствующий коэффициент равен нулю против альтернативы, что он отличается от нуля, учитывая другие предикторы в модели. Обратите внимание, что tStat = Estimate/SE. Например, t-статистика для перехвата составляет 47,977/3,8785 = 12,37.
pValue - p-значение для t-статистики теста гипотезы, что соответствующий коэффициент равен нулю или нет. Например, p-значение t-статистики для x2 больше 0,05, поэтому этот термин не значим на уровне значимости 5%, учитывая другие термины в модели.
Сводная статистика модели такова:
Number of observations - Количество строк без NaN значения. Например, Number of observations составляет 93, потому что MPG вектор данных имеет шесть NaN значения и Horsepower вектор данных имеет один NaN значение для другого наблюдения, где количество строк в X и MPG составляет 100.
Error degrees of freedom - n - p, где n - количество наблюдений, а p - количество коэффициентов в модели, включая перехват. Например, модель имеет четыре предиктора, поэтому Error degrees of freedom составляет 93 - 4 = 89.
Root mean squared error - квадратный корень среднеквадратической ошибки, который оценивает стандартное отклонение распределения ошибок.
R-squared и Adjusted R-squared - коэффициент определения и скорректированный коэффициент определения соответственно. Например, R-squared значение предполагает, что модель объясняет приблизительно 75% изменчивости переменной отклика MPG.
F-statistic vs. constant model - Тестовая статистика для F-теста на регрессионной модели, которая проверяет, подходит ли модель значительно лучше, чем вырожденная модель, состоящая только из постоянного члена.
p-value - значение p для F-теста на модели. Например, модель является значимой с p-значением 7,3816e-27.
Выполните анализ дисперсии (ANOVA) для модели.
anova(lm,'summary')ans=3×5 table
SumSq DF MeanSq F pValue
______ __ ______ ______ __________
Total 6004.8 92 65.269
Model 4516 3 1505.3 89.987 7.3816e-27
Residual 1488.8 89 16.728
Это anova На дисплее показано следующее.
SumSq - сумма квадратов для регрессионной модели, Model, термин ошибки, Residual, и всего, Total.
DF - степени свободы для каждого члена. Степени свободы равны для общего числа, для модели и для члена ошибки, где - количество наблюдений, а - количество коэффициентов в модели, включая перехват. Например, MPG вектор данных имеет шесть NaN значения и один из векторов данных, Horsepower, имеет один NaN значение для другого наблюдения, поэтому общая степень свободы равна 93 - 1 = 92. В модели есть четыре коэффициента, поэтому модель DF равно 4 - 1 = 3, и DF для члена ошибки - 93 - 4 = 89.
MeanSq - Средняя квадратичная ошибка для каждого члена. Обратите внимание, что MeanSq = SumSq/DF. Например, среднеквадратичная ошибка для члена ошибки равна 1488,8/89 = 16,728. Квадратным корнем этого значения является root mean squared error в отображении линейной регрессии, или 4,09.
F - F-статистическое значение, которое равно F-statistic vs. constant model в отображении линейной регрессии. В этом примере он равен 89,987, и в отображении линейной регрессии это значение F-статистики округляется до 90.
pValue - значение p для F-теста на модели. В этом примере он равен 7.3816e-27.
Если в регрессионной модели существуют члены более высокого порядка, anova секционирует модель SumSq в части, объясняемой слагаемыми более высокого порядка и восстановления. соответствующие F-статистические данные предназначены для проверки значимости линейных слагаемых и слагаемых более высокого порядка в виде отдельных групп.
Если данные включают в себя повторы или несколько измерений при одинаковых значениях предиктора, то anova секционирует ошибку SumSq в часть для реплик и восстановления. Соответствующая F-статистика предназначена для проверки отсутствия соответствия путем сравнения остатков модели с оценкой дисперсии без модели, вычисленной на репликациях.
Разложить таблицу ANOVA для модельных терминов.
anova(lm)
ans=4×5 table
SumSq DF MeanSq F pValue
________ __ ________ _________ __________
x1 563.18 1 563.18 33.667 9.8742e-08
x2 52.187 1 52.187 3.1197 0.08078
x3 0.060046 1 0.060046 0.0035895 0.95236
Error 1488.8 89 16.728
Это anova На дисплее отображается следующее:
Первый столбец - Термины, включенные в модель.
SumSq - Сумма квадратичной ошибки для каждого члена, за исключением константы.
DF - Степени свободы. В этом примере: DF равен 1 для каждого члена в модели и для члена ошибки, где - количество наблюдений, и - количество коэффициентов в модели, включая перехват. Например, DF для термина ошибки в этой модели - 93 - 4 = 89. Если какая-либо из переменных в модели является категориальной переменной, DF для этой переменной - количество переменных индикаторов, созданных для ее категорий (число категорий - 1).
MeanSq - Средняя квадратичная ошибка для каждого члена. Обратите внимание, что MeanSq = SumSq/DF. Например, среднеквадратичная ошибка для члена ошибки равна 1488,8/89 = 16,728.
F - F-значения для каждого коэффициента. F-значение - отношение среднего квадрата каждого члена и средней квадратичной ошибки, то есть F = MeanSq(xi)/MeanSq(Error). Каждая F-статистика имеет F-распределение со степенями свободы числителя, DF значение для соответствующего члена и степени свободы знаменателя n-p. - число наблюдений, а - число коэффициентов в модели. В этом примере каждая F-статистика имеет распределение F (1,89).
pValue - p-значение для каждого теста гипотезы по коэффициенту соответствующего члена в линейной модели. Например, значение p для F-статистического коэффициента x2 составляет 0,08078 и не является значимым при уровне значимости 5%, учитывая другие термины в модели.
Отображение доверительных интервалов коэффициентов.
coefCI(lm)
ans = 4×2
40.2702 55.6833
-0.0088 -0.0043
-0.0913 0.0054
-0.3957 0.3726
Значения в каждой строке являются нижним и верхним доверительными пределами, соответственно, для 95% доверительных интервалов по умолчанию для коэффициентов. Например, в первой строке показаны нижний и верхний пределы 40.2702 и 55.6833 для перехвата . Аналогично, вторая строка показывает пределы для и так далее. Доверительные интервалы обеспечивают меру точности для оценок коэффициента линейной регрессии. % доверительный интервал дает диапазон, в котором соответствующий коэффициент регрессии будет со )% доверительным.
Можно также изменить уровень достоверности. Найдите 99% доверительные интервалы для коэффициентов.
coefCI(lm,0.01)
ans = 4×2
37.7677 58.1858
-0.0095 -0.0036
-0.1069 0.0211
-0.5205 0.4973
Проверить нулевую гипотезу, что все переменные коэффициенты предиктора равны нулю, по сравнению с альтернативной гипотезой, что по меньшей мере один из них отличается от нуля.
[p,F,d] = coefTest(lm)
p = 7.3816e-27
F = 89.9874
d = 3
Здесь, coefTest выполняет F-тест для гипотезы, что все коэффициенты регрессии (за исключением перехвата) равны нулю против, по меньшей мере, одного отличия от нуля, что по существу является гипотезой на модели. Он возвращает , p-значение, F, F-статистика и d, числительные степени свободы. F-статистика и p-значение совпадают с значениями в отображении линейной регрессии и anova для модели. Степени свободы 4 - 1 = 3, поскольку в модели имеется четыре предиктора (включая перехват).
Теперь выполните тест гипотезы для коэффициентов первой и второй переменных предиктора.
H = [0 1 0 0; 0 0 1 0]; [p,F,d] = coefTest(lm,H)
p = 5.1702e-23
F = 96.4873
d = 2
Числительные степени свободы - это количество проверенных коэффициентов, которое в этом примере равно 2. Результаты показывают, что по меньшей мере один из и отличается от нуля.
anova | fitlm | LinearModel | stepwiselm