Линейная регрессия с эффектами взаимодействия

Создайте и проанализируйте линейную регрессионую модель с эффектами взаимодействия и интерпретируйте результаты.

Загрузите выборочные данные.

load hospital

Чтобы сохранить только первый столбец артериального давления, сохраните данные в таблице.

tbl = table(hospital.Sex,hospital.Age,hospital.Weight,hospital.Smoker,hospital.BloodPressure(:,1), ...
    'VariableNames',{'Sex','Age','Weight','Smoker','BloodPressure'});

Выполните ступенчатую линейную регрессию.

Для начальной модели используйте полную модель со всеми терминами и их парными взаимодействиями.

mdl = stepwiselm(tbl,'interactions')
1. Removing Sex:Smoker, FStat = 0.050738, pValue = 0.8223
2. Removing Weight:Smoker, FStat = 0.07758, pValue = 0.78124
3. Removing Age:Weight, FStat = 1.9717, pValue = 0.16367
4. Removing Sex:Age, FStat = 0.32389, pValue = 0.57067
5. Removing Age:Smoker, FStat = 2.4939, pValue = 0.11768
mdl = 
Linear regression model:
    BloodPressure ~ 1 + Age + Smoker + Sex*Weight

Estimated Coefficients:
                       Estimate       SE        tStat       pValue  
                       ________    ________    _______    __________

    (Intercept)         133.17       10.337     12.883      1.76e-22
    Sex_Male           -35.269       17.524    -2.0126      0.047015
    Age                0.11584     0.067664      1.712      0.090198
    Weight             -0.1393     0.080211    -1.7367      0.085722
    Smoker_1            9.8307       1.0229     9.6102    1.2391e-15
    Sex_Male:Weight     0.2341      0.11192     2.0917      0.039162


Number of observations: 100, Error degrees of freedom: 94
Root Mean Squared Error: 4.72
R-squared: 0.53,  Adjusted R-Squared: 0.505
F-statistic vs. constant model: 21.2, p-value = 4e-14

Конечная модель в формульном виде BloodPressure ~ 1 + Age + Smoker + Sex*Weight. Эта модель включает все четыре основных эффекта (Возраст, Курильщик, Пол, Вес) и двухстороннее взаимодействие между Sex и Weight. Эта модель соответствует

BP=β0+βAXA+βSmISm+βSIS+βWXW+βSWXWIS+ϵ,

где

  • BP является артериальное давление

  • βi являются коэффициентами

  • ISm - переменная показателя для курения; ISm=1 указывает на курящего пациента, в то время как ISm=0 указывает на неконтролирующего пациента

  • IS - переменная показателя для пола; IS=1 указывает пациента мужского пола, в то время как IS=0 указывает на пациентку-женщину

  • XA является Age переменная

  • XW является Weight переменная

  • ϵ - термин ошибки

Следующая таблица показывает подобранную линейную модель для каждого пола и комбинации курения.

ISmISLinear Model1(Курильщик)1(Мужской)BP=(β0+βSm+βS)+βAXA+(βW+βSW)XWBPˆ=107.5617+0.11584XA+0.11826XW1(Курильщик)0(Женский)BP=(β0+βSm)+βAXA+βWXWBPˆ=143.0007+0.11584XA-0.1393XW0(Некурящий)1(Мужской)BP=(β0+βS)+βAXA+(βW+βSW)XWBPˆ=97.901+0.11584XA+0.11826XW0(Некурящий)0(Женский)BP=β0+βAXA+βWXWBPˆ=133.17+0.11584XA-0.1393XW

Как видно из этих моделей, βSm и βS показать, насколько изменяется точка пересечения функции отклика, когда переменная индикатора принимает значение 1 по сравнению с тем, когда она принимает значение 0. βSWоднако показывает эффект переменной Weight на переменной отклика, когда переменная индикатора для пола принимает значение 1 по сравнению с тем, когда она принимает значение 0. Можно исследовать основные эффекты и эффекты взаимодействия в конечной модели с помощью методов LinearModel класс следующим образом.

Постройте графики предсказания среза.

figure
plotSlice(mdl)

Figure Prediction Slice Plots contains 4 axes and other objects of type uimenu, uicontrol. Axes 1 contains 5 objects of type line. Axes 2 contains 5 objects of type line. Axes 3 contains 5 objects of type line. Axes 4 contains 5 objects of type line.

Этот график показывает основные эффекты для всех переменных. Зеленая линия в каждой панели показывает изменение переменной отклика как функцию от переменной предиктора, когда все другие переменные предиктора остаются постоянными. Например, у курящего пациента мужского пола в возрасте 37,5 лет ожидаемое кровяное давление увеличивается с увеличением веса пациента, учитывая все остальное.

Штриховые красные кривые в каждой панели показывают 95% доверительные границы для предсказанных значений отклика.

Горизонтальная штриховая линия в каждой панели показывает предсказанную характеристику для конкретного значения переменной предиктора, соответствующей вертикальной штриховой линии. Можно перетащить эти линии, чтобы получить предсказанные значения отклика при других значениях предиктора, как показано далее.

Для примера прогнозируемое значение переменной отклика составляет 118,3497, когда пациентка - женщина, некурящая, возраст 40,3788 и весит 139,9545 фунтов. Значения в квадратных скобках [114.621, 122.079] показывают нижний и верхний пределы 95% доверительного интервала для предполагаемого отклика. Обратите внимание, что для неконтролирующей женщины-пациента ожидаемое артериальное давление уменьшается, когда вес увеличивается, учитывая, что все остальное остается постоянным.

Постройте графики основных эффектов.

plotEffects(mdl)

Figure contains an axes. The axes contains 6 objects of type line.

На этом графике отображаются основные эффекты. Круги показывают величину эффекта, а синие линии показывают верхний и нижний пределы доверия для основного эффекта. Например, курильщик увеличивает ожидаемое артериальное давление на 10 модули по сравнению с некурящим, учитывая, что все остальное поддерживается постоянным. Ожидаемое повышение артериального давления для мужчин примерно на два модулей по сравнению с женщинами, опять же, учитывая то, что другие предикторы поддерживаются постоянными. Увеличение возраста с 25 до 50 вызывает ожидаемое увеличение на 4 модули, в то время как изменение веса с 111 до 202 вызывает снижение ожидаемого артериального давления примерно на 4 единицы, учитывая, что все остальное остается постоянным.

Постройте графики эффектов взаимодействия.

figure
plotInteraction(mdl,'Sex','Weight')

Figure contains an axes. The axes with title Interaction of Sex and Weight contains 11 objects of type line.

Этот график отображает влияние изменения одного фактора, учитывая, что другой коэффициент фиксирован на значении.

Будьте осторожны при интерпретации эффектов взаимодействия. Когда не хватает данных по всем комбинациям факторов или данные сильно коррелируют, может быть трудно определить эффект взаимодействия изменения одного фактора, сохраняя другой фиксированным. В таких случаях предполагаемый эффект взаимодействия является экстраполяцией из данных.

Синие круги показывают основной эффект конкретного термина, как на графике основных эффектов. Красные круги показывают влияние изменения одного термина на фиксированные значения другого термина. Например, в нижней половине этого графика красные круги показывают влияние изменения веса у пациентов женского и мужского пола, отдельно. Видно, что увеличение веса самки от 111 до 202 фунтов вызывает примерно 14-единичное снижение ожидаемого артериального давления, в то время как увеличение того же количества веса больного мужского пола вызывает примерно 5-единичное повышение ожидаемого артериального давления, снова учитывая, что другие предикторы поддерживаются постоянными.

Постройте графики эффектов предсказания.

figure
plotInteraction(mdl,'Sex','Weight','predictions')

Figure contains an axes. The axes with title Interaction of Sex and Weight contains 3 objects of type line. These objects represent Sex, Female, Male.

Этот график показывает эффект изменения одной переменной, поскольку другая переменная предиктора остается постоянной. В этом примере последний рисунок показывает переменную отклика, артериальное давление, как функцию от веса, когда переменный пол фиксируется у мужчин и женщин. Линии для мужчин и женщин пересекаются, что указывает на сильное взаимодействие между весом и полом. Вы можете увидеть, что ожидаемое артериальное давление увеличивается, когда вес пациента мужского пола увеличивается, но уменьшается, когда вес пациента женского пола увеличивается.

См. также

| | | | |

Похожие темы