Этот пример показывает, как отобразить и интерпретировать линейную регрессию выходная статистика.
Загрузите набор данных carsmall
, матричный набор входных данных.
load carsmall
X = [Weight,Horsepower,Acceleration];
Соответствуйте модели линейной регрессии при помощи fitlm
.
lm = fitlm(X,MPG)
lm = Linear regression model: y ~ 1 + x1 + x2 + x3 Estimated Coefficients: Estimate SE tStat pValue __________ _________ _________ __________ (Intercept) 47.977 3.8785 12.37 4.8957e-21 x1 -0.0065416 0.0011274 -5.8023 9.8742e-08 x2 -0.042943 0.024313 -1.7663 0.08078 x3 -0.011583 0.19333 -0.059913 0.95236 Number of observations: 93, Error degrees of freedom: 89 Root Mean Squared Error: 4.09 R-squared: 0.752, Adjusted R-Squared: 0.744 F-statistic vs. constant model: 90, p-value = 7.38e-27
Образцовое отображение включает образцовую формулу, оцененные коэффициенты и образцовую итоговую статистику.
Образцовая формула в отображении, y ~ 1 + x1 + x2 + x3
, соответствует .
Образцовое отображение показывает предполагаемую информацию о коэффициенте, которая хранится в свойстве Coefficients
. Отобразите свойство Coefficients
.
lm.Coefficients
ans=4×4 table
Estimate SE tStat pValue
__________ _________ _________ __________
(Intercept) 47.977 3.8785 12.37 4.8957e-21
x1 -0.0065416 0.0011274 -5.8023 9.8742e-08
x2 -0.042943 0.024313 -1.7663 0.08078
x3 -0.011583 0.19333 -0.059913 0.95236
Свойство Coefficient
включает эти столбцы:
Estimate
— Коэффициент оценивает для каждого соответствующего члена в модели. Например, оценка для постоянного термина (intercept
) 47.977.
SE
— Стандартная погрешность коэффициентов.
tStat
— t-статистическая-величина для каждого коэффициента, чтобы протестировать нулевую гипотезу, что соответствующий коэффициент является нулем против альтернативы, что это отличается от нуля, учитывая другие предикторы в модели. Обратите внимание на то, что tStat = Estimate/SE
. Например, t-статистическая-величина для прерывания является 47.977/3.8785 = 12.37.
pValue
— p-значение для t-статистической-величины теста гипотезы, который соответствующий коэффициент равен нулю или нет. Например, p-значение t-статистической-величины для x2
больше, чем 0,05, таким образом, этот термин не является значительным на 5%-м уровне значения, учитывая другие члены в модели.
Итоговые статистические данные модели:
Number of observations
— Количество строк без любых значений NaN
. Например, Number of observations
равняется 93, потому что вектор данных MPG
имеет шесть значений NaN
, и вектор данных Horsepower
имеет одно значение NaN
для различного наблюдения, где количество строк в X
и MPG
равняется 100.
Error degrees of freedom
— n – p, где n является количеством наблюдений и p, является количеством коэффициентов в модели, включая прерывание. Например, модель имеет четыре предиктора, таким образом, Error degrees of freedom
равняется 93 – 4 = 89.
Root mean squared error
— Квадратный корень из среднеквадратической ошибки, которая оценивает стандартное отклонение распределения ошибок.
R-squared
и Adjusted R-squared
— Коэффициент детерминации и настроенный коэффициент детерминации, соответственно. Например, значение R-squared
предполагает, что модель объясняет приблизительно 75% изменчивости в переменной отклика MPG
.
F-statistic vs. constant model
— Протестируйте статистическую величину на F-тест на модели регрессии, которая тестирует, соответствует ли модель значительно лучше, чем вырожденная модель, состоящая только из постоянного термина.
p-value
— p-значение для F-теста на модели. Например, модель является значительной с p-значением 7.3816e-27.
Выполните дисперсионный анализ (АНОВА) для модели.
anova(lm,'summary')
ans=3×5 table
SumSq DF MeanSq F pValue
______ __ ______ ______ __________
Total 6004.8 92 65.269
Model 4516 3 1505.3 89.987 7.3816e-27
Residual 1488.8 89 16.728
Это отображение anova
показывает следующее.
SumSq
— Сумма квадратов для модели регрессии, Model
, остаточного члена, Residual
, и общего количества, Total
.
DF
— Степени свободы для каждого термина. Степени свободы для общего количества, для модели, и для остаточного члена, где количество наблюдений, и количество коэффициентов в модели, включая прерывание. Например, вектор данных MPG
имеет шесть значений NaN
, и один из векторов данных, Horsepower
, имеет одно значение NaN
для различного наблюдения, таким образом, общие степени свободы равняются 93 – 1 = 92. В модели существует четыре коэффициента, таким образом, модель DF
равняется 4 – 1 = 3, и DF
для остаточного члена равняется 93 – 4 = 89.
MeanSq
— Среднеквадратическая ошибка для каждого термина. Обратите внимание на то, что MeanSq = SumSq/DF
. Например, среднеквадратическая ошибка для остаточного члена является 1488.8/89 = 16.728. Квадратным корнем из этого значения является root mean squared error
в отображении линейной регрессии, или 4.09.
F
Значение F-статистической-величины, которое совпадает с F-statistic vs. constant model
в отображении линейной регрессии. В этом примере это 89.987, и в линейной регрессии отображаются, это значение F-статистической-величины окружено к 90.
pValue
— p-значение для F-теста на модели. В этом примере это - 7.3816e-27.
Если существуют условия высшего порядка в модели регрессии, anova
делит модель SumSq
в часть, объясненную условиями высшего порядка и остальными. Соответствующие F-статистические-данные для тестирования значения линейных членов и условий высшего порядка с должности отдельных групп.
Если данные включают, реплицирует, или несколько измерений в тех же значениях предиктора, то anova
делит ошибку SumSq
в часть для реплицирования и остальных. Соответствующая F-статистическая-величина для тестирования отсутствия подгонки путем сравнения образцовых невязок с оценкой отклонения без моделей, вычисленной на реплицировании.
Анализируйте таблицу АНОВОЙ для образцовых условий.
anova(lm)
ans=4×5 table
SumSq DF MeanSq F pValue
________ __ ________ _________ __________
x1 563.18 1 563.18 33.667 9.8742e-08
x2 52.187 1 52.187 3.1197 0.08078
x3 0.060046 1 0.060046 0.0035895 0.95236
Error 1488.8 89 16.728
Это отображение anova
показывает следующее:
Первый столбец — Условия включены в модель.
SumSq
— Сумма квадратичной невязки для каждого термина за исключением константы.
DF
— Степени свободы. В этом примере DF
1 для каждого члена в модели и для остаточного члена, где количество наблюдений, и количество коэффициентов в модели, включая прерывание. Например, DF
для остаточного члена в этой модели равняется 93 – 4 = 89. Если какая-либо из переменных в модели является категориальной переменной, DF
для той переменной является количеством переменных индикатора, созданных для его категорий (количество категорий – 1).
MeanSq
— Среднеквадратическая ошибка для каждого термина. Обратите внимание на то, что MeanSq = SumSq/DF
. Например, среднеквадратическая ошибка для остаточного члена является 1488.8/89 = 16.728.
F
F-значения для каждого коэффициента. F-значение является отношением среднеквадратического из каждого термина и среднеквадратической ошибки, то есть, F = MeanSq(xi)/MeanSq(Error)
. Каждая F-статистическая-величина имеет распределение F, со степенями свободы числителя, значением DF
для соответствующего термина и степенями свободы знаменателя, . количество наблюдений, и количество коэффициентов в модели. В этом примере каждая F-статистическая-величина имеет распределение.
pValue
— p-значение для каждой гипотезы тестирует на коэффициенте соответствующего термина в линейной модели. Например, p-значение для коэффициента F-статистической-величины x2
0.08078 и не является значительным на 5%-м уровне значения, учитывая другие члены в модели.
Отобразите содействующие доверительные интервалы.
coefCI(lm)
ans = 4×2
40.2702 55.6833
-0.0088 -0.0043
-0.0913 0.0054
-0.3957 0.3726
Значения в каждой строке являются более низкими и верхними пределами достоверности, соответственно, для значения по умолчанию 95% доверительных интервалов для коэффициентов. Например, первая строка показывает нижние и верхние пределы, 40.2702 и 55.6833, для прерывания, . Аналогично, вторая строка показывает пределы для и так далее. Доверительные интервалы обеспечивают меру точности для содействующих оценок линейной регрессии. A доверительный интервал дает область значений, которую будет хорошо знать соответствующий коэффициент регрессии уверенность.
Можно также изменить доверительный уровень. Найдите 99% доверительных интервалов для коэффициентов.
coefCI(lm,0.01)
ans = 4×2
37.7677 58.1858
-0.0095 -0.0036
-0.1069 0.0211
-0.5205 0.4973
Протестируйте нулевую гипотезу, которую все коэффициенты переменной прогноза равны нулю по сравнению с альтернативной гипотезой, что по крайней мере один из них отличается от нуля.
[p,F,d] = coefTest(lm)
p = 7.3816e-27
F = 89.9874
d = 3
Здесь, coefTest
выполняет F-тест для гипотезы, что все коэффициенты регрессии (за исключением прерывания) являются нулем по сравнению с по крайней мере одним, отличается от нуля, который по существу является гипотезой на модели. Это возвращается , p-значение, F
, F-статистическая-величина, и d
, степени свободы числителя. F-статистическая-величина и p-значение совпадают с теми в отображении линейной регрессии и anova
для модели. Степени свободы равняются 4 – 1 = 3, потому что существует четыре предиктора (включая прерывание) в модели.
Теперь, выполните тест гипотезы на коэффициентах первых и вторых переменных прогноза.
H = [0 1 0 0; 0 0 1 0]; [p,F,d] = coefTest(lm,H)
p = 5.1702e-23
F = 96.4873
d = 2
Степени свободы числителя являются количеством протестированных коэффициентов, который является 2 в этом примере. Результаты показывают на это по крайней мере один из и отличается от нуля.
LinearModel
| anova
| fitlm
| stepwiselm