Интерпретируйте результаты линейной регрессии

В этом примере показано, как отобразить и интерпретировать линейную регрессию выходная статистика.

Подбирайте модель линейной регрессии

Загрузите carsmall набор данных, матричные входные данные установлены.

load carsmall
X = [Weight,Horsepower,Acceleration];

Подбирайте модель линейной регрессии при помощи fitlm.

lm = fitlm(X,MPG)

lm = 
Linear regression model:
    y ~ 1 + x1 + x2 + x3

Estimated Coefficients:
                    Estimate        SE          tStat        pValue  
                   __________    _________    _________    __________

    (Intercept)        47.977       3.8785        12.37    4.8957e-21
    x1             -0.0065416    0.0011274      -5.8023    9.8742e-08
    x2              -0.042943     0.024313      -1.7663       0.08078
    x3              -0.011583      0.19333    -0.059913       0.95236


Number of observations: 93, Error degrees of freedom: 89
Root Mean Squared Error: 4.09
R-squared: 0.752,  Adjusted R-Squared: 0.744
F-statistic vs. constant model: 90, p-value = 7.38e-27

Отображение модели включает формулу модели, оцененные коэффициенты и итоговую статистику модели.

Формула модели в отображении, y ~ 1 + x1 + x2 + x3, соответствует $y = β_{0} + β_{1} X_{1} + β_{2} X_{2} + β_{3} X_{3} + ϵ$ .

Отображение модели показывает предполагаемую информацию о коэффициенте, которая хранится в Coefficients свойство. Отобразите Coefficients свойство.

lm.Coefficients

ans=4×4 table
                    Estimate        SE          tStat        pValue  
                   __________    _________    _________    __________

    (Intercept)        47.977       3.8785        12.37    4.8957e-21
    x1             -0.0065416    0.0011274      -5.8023    9.8742e-08
    x2              -0.042943     0.024313      -1.7663       0.08078
    x3              -0.011583      0.19333    -0.059913       0.95236

Coefficient свойство включает эти столбцы:

Estimate — Коэффициент оценивает для каждого соответствующего члена в модели. Например, оценка для постоянного термина (intercept) 47.977.
SE — Стандартная погрешность коэффициентов.
tStat — t-статистическая-величина для каждого коэффициента, чтобы протестировать нулевую гипотезу, что соответствующий коэффициент является нулем против альтернативы, что это отличается от нуля, учитывая другие предикторы в модели. Обратите внимание на то, что tStat = Estimate/SE. Например, t-статистическая-величина для точки пересечения является 47.977/3.8785 = 12.37.
pValue — p-значение для t-статистической-величины теста гипотезы, который соответствующий коэффициент равен нулю или нет. Например, p-значение t-статистической-величины для x2 больше 0.05, таким образом, этот термин не является значительным на 5%-м уровне значения, учитывая другие члены в модели.

Итоговые статистические данные модели:

Number of observations — Количество строк без любого NaN значения. Например, Number of observations 93 потому что MPG вектор данных имеет шесть NaN значения и Horsepower вектор данных имеет один NaN значение для различного наблюдения, где количество строк в X и MPG 100.
Error degrees of freedom — n – p, где n является количеством наблюдений, и p является количеством коэффициентов в модели, включая точку пересечения. Например, модель имеет четыре предиктора, таким образом, Error degrees of freedom 93 – 4 = 89.
Root mean squared error — Квадратный корень из среднеквадратической ошибки, которая оценивает стандартное отклонение распределения ошибок.
R-squared и Adjusted R-squared — Коэффициент детерминации и настроенный коэффициент детерминации, соответственно. Например, R-squared значение предполагает, что модель объясняет приблизительно 75% изменчивости в переменной отклика MPG.
F-statistic vs. constant model — Протестируйте статистическую величину на F-тест на модели регрессии, которая тестирует, соответствует ли модель значительно лучше, чем вырожденная модель, состоящая только из постоянного термина.
p-value — p-значение для F-теста на модели. Например, модель является значительной с p-значением 7.3816e-27.

ДИСПЕРСИОННЫЙ АНАЛИЗ

Выполните дисперсионный анализ (Дисперсионный Анализ) для модели.

anova(lm,'summary')

ans=3×5 table
                SumSq     DF    MeanSq      F         pValue  
                ______    __    ______    ______    __________

    Total       6004.8    92    65.269                        
    Model         4516     3    1505.3    89.987    7.3816e-27
    Residual    1488.8    89    16.728

Этот anova отобразитесь показывает следующее.

SumSq — Сумма квадратов для модели регрессии, Model, остаточный член, Residual, и общее количество, Total.
DF — Степени свободы для каждого термина. Степени свободы $n - 1$ для общего количества, $p - 1$ для модели, и $n - p$ для остаточного члена, где $n$ количество наблюдений, и $p$ количество коэффициентов в модели, включая точку пересечения. Например, MPG вектор данных имеет шесть NaN значения и один из векторов данных, Horsepower, имеет один NaN значение для различного наблюдения, таким образом, общие степени свободы 93 – 1 = 92. Существует четыре коэффициента в модели, таким образом, модель DF 4 – 1 = 3, и DF поскольку остаточный член равняется 93 – 4 = 89.
MeanSq — Среднеквадратическая ошибка для каждого термина. Обратите внимание на то, что MeanSq = SumSq/DF. Например, среднеквадратическая ошибка для остаточного члена является 1488.8/89 = 16.728. Квадратным корнем из этого значения является root mean squared error в отображении линейной регрессии, или 4.09.
F — Значение F-статистической-величины, которое совпадает с F-statistic vs. constant model в отображении линейной регрессии. В этом примере это 89.987, и в линейной регрессии отображаются, это значение F-статистической-величины окружено к 90.
pValue — p-значение для F-теста на модели. В этом примере это - 7.3816e-27.

Если существуют термины высшего порядка в модели регрессии, anova делит модель SumSq в часть, объясненную терминами высшего порядка и остальными. Соответствующие F-статистические-данные для тестирования значения линейных членов и терминов высшего порядка как отдельные группы.

Если данные включают, реплицирует, или несколько измерений в тех же значениях предиктора, то anova делит ошибку SumSq в часть для реплицирования и остальных. Соответствующая F-статистическая-величина для тестирования отсутствия подгонки путем сравнения остаточных значений модели с оценкой отклонения без моделей, вычисленной на реплицировании.

Анализируйте таблицу ANOVA для терминов модели.

anova(lm)

ans=4×5 table
              SumSq      DF     MeanSq         F          pValue  
             ________    __    ________    _________    __________

    x1         563.18     1      563.18       33.667    9.8742e-08
    x2         52.187     1      52.187       3.1197       0.08078
    x3       0.060046     1    0.060046    0.0035895       0.95236
    Error      1488.8    89      16.728

Этот anova отобразитесь показывает следующее:

Первый столбец — Условия включены в модель.
SumSq — Сумма квадратичной невязки для каждого термина за исключением константы.
DF — Степени свободы. В этом примере, DF 1 для каждого члена в модели и $n - p$ для остаточного члена, где $n$ количество наблюдений, и $p$ количество коэффициентов в модели, включая точку пересечения. Например, DF поскольку остаточный член в этой модели равняется 93 – 4 = 89. Если какая-либо из переменных в модели является категориальной переменной, DF поскольку та переменная является количеством переменных индикатора, созданных для его категорий (количество категорий – 1).
MeanSq — Среднеквадратическая ошибка для каждого термина. Обратите внимание на то, что MeanSq = SumSq/DF. Например, среднеквадратическая ошибка для остаточного члена является 1488.8/89 = 16.728.
F — F-значения для каждого коэффициента. F-значение является отношением среднеквадратического из каждого термина и среднеквадратической ошибки, то есть, F = MeanSq(xi)/MeanSq(Error). Каждая F-статистическая-величина имеет распределение F, со степенями свободы числителя, DF значение для соответствующего термина и степени свободы знаменателя, $n - p$ . $n$ количество наблюдений, и $p$ количество коэффициентов в модели. В этом примере каждая F-статистическая-величина имеет $F_{(1, 89)}$ распределение.
pValue — p-значение для каждой гипотезы тестирует на коэффициенте соответствующего термина в линейной модели. Например, p-значение для коэффициента F-статистической-величины x2 0.08078 и не является значительным на 5%-м уровне значения, учитывая другие члены в модели.

Содействующие доверительные интервалы

Отобразите содействующие доверительные интервалы.

coefCI(lm)

ans = 4×2

   40.2702   55.6833
   -0.0088   -0.0043
   -0.0913    0.0054
   -0.3957    0.3726

Значения в каждой строке являются более низкими и верхними пределами достоверности, соответственно, для значения по умолчанию 95% доверительных интервалов для коэффициентов. Например, первая строка показывает нижние и верхние пределы, 40.2702 и 55.6833, для точки пересечения, $β_{0}$ . Аналогично, вторая строка показывает пределы для $β_{1}$ и так далее. Доверительные интервалы обеспечивают меру точности для содействующих оценок линейной регрессии. A $100 (1 - α) %$ доверительный интервал дает область значений, которую будет хорошо знать соответствующий коэффициент регрессии $100 (1 - α) %$ доверие.

Можно также изменить доверительный уровень. Найдите 99% доверительных интервалов для коэффициентов.

coefCI(lm,0.01)

ans = 4×2

   37.7677   58.1858
   -0.0095   -0.0036
   -0.1069    0.0211
   -0.5205    0.4973

Тест гипотезы на коэффициентах

Протестируйте нулевую гипотезу, которую все коэффициенты переменного предиктора равны нулю по сравнению с альтернативной гипотезой в наименьшем количестве одном из них, отличается от нуля.

[p,F,d] = coefTest(lm)

p = 7.3816e-27

F = 89.9874

d = 3

Здесь, coefTest выполняет F-тест для гипотезы, что все коэффициенты регрессии (за исключением точки пересечения) являются нулем по сравнению с по крайней мере одним, отличается от нуля, который по существу является гипотезой на модели. Это возвращается $p$ , p-значение, F, F-статистическая-величина и d, степени свободы числителя. F-статистическая-величина и p-значение совпадают с теми в отображении линейной регрессии и anova для модели. Степени свободы равняются 4 – 1 = 3, потому что существует четыре предиктора (включая точку пересечения) в модели.

Теперь выполните тест гипотезы на коэффициентах первых и вторых переменных предикторов.

H = [0 1 0 0; 0 0 1 0];
[p,F,d] = coefTest(lm,H)

p = 5.1702e-23

F = 96.4873

d = 2

Степени свободы числителя являются количеством протестированных коэффициентов, который является 2 в этом примере. Результаты показывают в наименьшем количестве одном из $β_{2}$ и $β_{3}$ отличается от нуля.

Документация

Интерпретируйте результаты линейной регрессии

Подбирайте модель линейной регрессии

ДИСПЕРСИОННЫЙ АНАЛИЗ

Содействующие доверительные интервалы

Тест гипотезы на коэффициентах

Смотрите также

Связанные примеры

Больше о

Документация Statistics and Machine Learning Toolbox

Поддержка