В этом примере показано, как отобразить и интерпретировать линейную регрессию выходная статистика.
Загрузите carsmall
набор данных, матричные входные данные установлены.
load carsmall
X = [Weight,Horsepower,Acceleration];
Подбирайте модель линейной регрессии при помощи fitlm
.
lm = fitlm(X,MPG)
lm = Linear regression model: y ~ 1 + x1 + x2 + x3 Estimated Coefficients: Estimate SE tStat pValue __________ _________ _________ __________ (Intercept) 47.977 3.8785 12.37 4.8957e-21 x1 -0.0065416 0.0011274 -5.8023 9.8742e-08 x2 -0.042943 0.024313 -1.7663 0.08078 x3 -0.011583 0.19333 -0.059913 0.95236 Number of observations: 93, Error degrees of freedom: 89 Root Mean Squared Error: 4.09 R-squared: 0.752, Adjusted R-Squared: 0.744 F-statistic vs. constant model: 90, p-value = 7.38e-27
Отображение модели включает формулу модели, оцененные коэффициенты и итоговую статистику модели.
Формула модели в отображении, y ~ 1 + x1 + x2 + x3
, соответствует .
Отображение модели показывает предполагаемую информацию о коэффициенте, которая хранится в Coefficients
свойство. Отобразите Coefficients
свойство.
lm.Coefficients
ans=4×4 table
Estimate SE tStat pValue
__________ _________ _________ __________
(Intercept) 47.977 3.8785 12.37 4.8957e-21
x1 -0.0065416 0.0011274 -5.8023 9.8742e-08
x2 -0.042943 0.024313 -1.7663 0.08078
x3 -0.011583 0.19333 -0.059913 0.95236
Coefficient
свойство включает эти столбцы:
Estimate
— Коэффициент оценивает для каждого соответствующего члена в модели. Например, оценка для постоянного термина (intercept
) 47.977.
SE
— Стандартная погрешность коэффициентов.
tStat
— t-статистическая-величина для каждого коэффициента, чтобы протестировать нулевую гипотезу, что соответствующий коэффициент является нулем против альтернативы, что это отличается от нуля, учитывая другие предикторы в модели. Обратите внимание на то, что tStat = Estimate/SE
. Например, t-статистическая-величина для прерывания является 47.977/3.8785 = 12.37.
pValue
— p-значение для t-статистической-величины теста гипотезы, который соответствующий коэффициент равен нулю или нет. Например, p-значение t-статистической-величины для x2
больше 0.05, таким образом, этот термин не является значительным на 5%-м уровне значения, учитывая другие члены в модели.
Итоговые статистические данные модели:
Number of observations
— Количество строк без любого NaN
значения. Например, Number of observations
93 потому что MPG
вектор данных имеет шесть NaN
значения и Horsepower
вектор данных имеет один NaN
значение для различного наблюдения, где количество строк в X
и MPG
100.
Error degrees of freedom
— n – p, где n является количеством наблюдений, и p является количеством коэффициентов в модели, включая прерывание. Например, модель имеет четыре предиктора, таким образом, Error degrees of freedom
93 – 4 = 89.
Root mean squared error
— Квадратный корень из среднеквадратической ошибки, которая оценивает стандартное отклонение распределения ошибок.
R-squared
и Adjusted R-squared
— Коэффициент детерминации и настроенный коэффициент детерминации, соответственно. Например, R-squared
значение предполагает, что модель объясняет приблизительно 75% изменчивости в переменной отклика MPG
.
F-statistic vs. constant model
— Протестируйте статистическую величину на F-тест на модели регрессии, которая тестирует, соответствует ли модель значительно лучше, чем вырожденная модель, состоящая только из постоянного термина.
p-value
— p-значение для F-теста на модели. Например, модель является значительной с p-значением 7.3816e-27.
Выполните дисперсионный анализ (Дисперсионный Анализ) для модели.
anova(lm,'summary')
ans=3×5 table
SumSq DF MeanSq F pValue
______ __ ______ ______ __________
Total 6004.8 92 65.269
Model 4516 3 1505.3 89.987 7.3816e-27
Residual 1488.8 89 16.728
Этот anova
отобразитесь показывает следующее.
SumSq
— Сумма квадратов для модели регрессии, Model
, остаточный член, Residual
, и общее количество, Total
.
DF
— Степени свободы для каждого термина. Степени свободы для общего количества, для модели, и для остаточного члена, где количество наблюдений, и количество коэффициентов в модели, включая прерывание. Например, MPG
вектор данных имеет шесть NaN
значения и один из векторов данных, Horsepower
, имеет один NaN
значение для различного наблюдения, таким образом, общие степени свободы 93 – 1 = 92. Существует четыре коэффициента в модели, таким образом, модель DF
4 – 1 = 3, и DF
поскольку остаточный член равняется 93 – 4 = 89.
MeanSq
— Среднеквадратическая ошибка для каждого термина. Обратите внимание на то, что MeanSq = SumSq/DF
. Например, среднеквадратическая ошибка для остаточного члена является 1488.8/89 = 16.728. Квадратным корнем из этого значения является root mean squared error
в отображении линейной регрессии, или 4.09.
F
— Значение F-статистической-величины, которое совпадает с F-statistic vs. constant model
в отображении линейной регрессии. В этом примере это 89.987, и в линейной регрессии отображаются, это значение F-статистической-величины окружено к 90.
pValue
— p-значение для F-теста на модели. В этом примере это - 7.3816e-27.
Если существуют условия высшего порядка в модели регрессии, anova
делит модель SumSq
в часть, объясненную условиями высшего порядка и остальными. Соответствующие F-статистические-данные для тестирования значения линейных членов и условий высшего порядка с должности отдельных групп.
Если данные включают, реплицирует, или несколько измерений в тех же значениях предиктора, то anova
делит ошибку SumSq
в часть для реплицирования и остальных. Соответствующая F-статистическая-величина для тестирования отсутствия подгонки путем сравнения остаточных значений модели с оценкой отклонения без моделей, вычисленной на реплицировании.
Анализируйте таблицу ANOVA для условий модели.
anova(lm)
ans=4×5 table
SumSq DF MeanSq F pValue
________ __ ________ _________ __________
x1 563.18 1 563.18 33.667 9.8742e-08
x2 52.187 1 52.187 3.1197 0.08078
x3 0.060046 1 0.060046 0.0035895 0.95236
Error 1488.8 89 16.728
Этот anova
отобразитесь показывает следующее:
Первый столбец — Условия включены в модель.
SumSq
— Сумма квадратичной невязки для каждого термина за исключением константы.
DF
— Степени свободы. В этом примере, DF
1 для каждого члена в модели и для остаточного члена, где количество наблюдений, и количество коэффициентов в модели, включая прерывание. Например, DF
поскольку остаточный член в этой модели равняется 93 – 4 = 89. Если какая-либо из переменных в модели является категориальной переменной, DF
поскольку та переменная является количеством переменных индикатора, созданных для его категорий (количество категорий – 1).
MeanSq
— Среднеквадратическая ошибка для каждого термина. Обратите внимание на то, что MeanSq = SumSq/DF
. Например, среднеквадратическая ошибка для остаточного члена является 1488.8/89 = 16.728.
F
— F-значения для каждого коэффициента. F-значение является отношением среднеквадратического из каждого термина и среднеквадратической ошибки, то есть, F = MeanSq(xi)/MeanSq(Error)
. Каждая F-статистическая-величина имеет распределение F, со степенями свободы числителя, DF
значение для соответствующего термина и степени свободы знаменателя, . количество наблюдений, и количество коэффициентов в модели. В этом примере каждая F-статистическая-величина имеет распределение.
pValue
— p-значение для каждой гипотезы тестирует на коэффициенте соответствующего термина в линейной модели. Например, p-значение для коэффициента F-статистической-величины x2
0.08078 и не является значительным на 5%-м уровне значения, учитывая другие члены в модели.
Отобразите содействующие доверительные интервалы.
coefCI(lm)
ans = 4×2
40.2702 55.6833
-0.0088 -0.0043
-0.0913 0.0054
-0.3957 0.3726
Значения в каждой строке являются более низкими и верхними пределами достоверности, соответственно, для значения по умолчанию 95% доверительных интервалов для коэффициентов. Например, первая строка показывает нижние и верхние пределы, 40.2702 и 55.6833, для прерывания, . Аналогично, вторая строка показывает пределы для и так далее. Доверительные интервалы обеспечивают меру точности для содействующих оценок линейной регрессии. A доверительный интервал дает область значений, которую будет хорошо знать соответствующий коэффициент регрессии доверие.
Можно также изменить доверительный уровень. Найдите 99% доверительных интервалов для коэффициентов.
coefCI(lm,0.01)
ans = 4×2
37.7677 58.1858
-0.0095 -0.0036
-0.1069 0.0211
-0.5205 0.4973
Протестируйте нулевую гипотезу, которую все коэффициенты переменного предиктора равны нулю по сравнению с альтернативной гипотезой в наименьшем количестве одном из них, отличается от нуля.
[p,F,d] = coefTest(lm)
p = 7.3816e-27
F = 89.9874
d = 3
Здесь, coefTest
выполняет F-тест для гипотезы, что все коэффициенты регрессии (за исключением прерывания) являются нулем по сравнению с по крайней мере одним, отличается от нуля, который по существу является гипотезой на модели. Это возвращается , p-значение, F
, F-статистическая-величина и d
, степени свободы числителя. F-статистическая-величина и p-значение совпадают с теми в отображении линейной регрессии и anova
для модели. Степени свободы равняются 4 – 1 = 3, потому что существует четыре предиктора (включая прерывание) в модели.
Теперь выполните тест гипотезы на коэффициентах первых и вторых переменных предикторов.
H = [0 1 0 0; 0 0 1 0]; [p,F,d] = coefTest(lm,H)
p = 5.1702e-23
F = 96.4873
d = 2
Степени свободы числителя являются количеством протестированных коэффициентов, который является 2 в этом примере. Результаты показывают в наименьшем количестве одном из и отличается от нуля.
anova
| fitlm
| LinearModel
| stepwiselm