exponenta event banner

Линейная регрессия с эффектами взаимодействия

Создайте и проанализируйте модель линейной регрессии с эффектами взаимодействия и интерпретируйте результаты.

Загрузить данные образца.

load hospital

Чтобы сохранить только первый столбец артериального давления, сохраните данные в таблице.

tbl = table(hospital.Sex,hospital.Age,hospital.Weight,hospital.Smoker,hospital.BloodPressure(:,1), ...
    'VariableNames',{'Sex','Age','Weight','Smoker','BloodPressure'});

Выполните пошаговую линейную регрессию.

Для исходной модели используйте полную модель со всеми терминами и их парными взаимодействиями.

mdl = stepwiselm(tbl,'interactions')
1. Removing Sex:Smoker, FStat = 0.050738, pValue = 0.8223
2. Removing Weight:Smoker, FStat = 0.07758, pValue = 0.78124
3. Removing Age:Weight, FStat = 1.9717, pValue = 0.16367
4. Removing Sex:Age, FStat = 0.32389, pValue = 0.57067
5. Removing Age:Smoker, FStat = 2.4939, pValue = 0.11768
mdl = 
Linear regression model:
    BloodPressure ~ 1 + Age + Smoker + Sex*Weight

Estimated Coefficients:
                       Estimate       SE        tStat       pValue  
                       ________    ________    _______    __________

    (Intercept)         133.17       10.337     12.883      1.76e-22
    Sex_Male           -35.269       17.524    -2.0126      0.047015
    Age                0.11584     0.067664      1.712      0.090198
    Weight             -0.1393     0.080211    -1.7367      0.085722
    Smoker_1            9.8307       1.0229     9.6102    1.2391e-15
    Sex_Male:Weight     0.2341      0.11192     2.0917      0.039162


Number of observations: 100, Error degrees of freedom: 94
Root Mean Squared Error: 4.72
R-squared: 0.53,  Adjusted R-Squared: 0.505
F-statistic vs. constant model: 21.2, p-value = 4e-14

Окончательная модель в форме формулы BloodPressure ~ 1 + Age + Smoker + Sex*Weight. Эта модель включает в себя все четыре основных эффекта (возраст, курильщик, пол, вес) и двустороннее взаимодействие между Sex и Weight. Эта модель соответствует

BP=β0+βAXA+βSmISm+βSIS+βWXW+βSWXWIS+ϵ,

где

  • АД - артериальное давление

  • βi - коэффициенты

  • ISm является индикаторной переменной для курения; ISm = 1 указывает курящего пациента, тогда как ISm = 0 указывает некурящего пациента

  • IS является индикаторной переменной для пола; IS = 1 указывает пациента мужского пола, тогда как IS = 0 указывает пациента женского пола

  • XA - это Age переменная

  • XW - это Weight переменная

  • ϵ является термином ошибки

В следующей таблице показана подходящая линейная модель для каждой комбинации пола и курения.

 ISmISLinear Model1 (Курильщик) 1 (Мужчина) BP = (β0 +βSm +βS) + βAXA + (βW +βSW) XWBP ˆ = 107.5617+0.11584XA+0.11826XW1 (Курильщик) 0 (Женщина) BP = (β0 +βSm) + βAXA +βWXWBP ˆ = 143.0007+0.11584XA-0.1393XW0 (Некурящий) 1 (Мужчина) BP = (β0 +βS) + βAXA + (βW +βSW) XWBP ˆ = 97.901+0.11584XA+0.11826XW0 (Некурящий) 0 (Женщина) BP =β0 +βAXA +βWXWBP ˆ = 133.17+0.11584XA-0.1393XW

Как видно из этих моделей, βSm и βS показывают, насколько изменяется пересечение функции отклика, когда индикаторная переменная принимает значение 1 по сравнению с тем, когда она принимает значение 0. βSW, однако, показывает влияние переменной веса на переменную ответа, когда переменная индикатора для пола принимает значение 1 по сравнению с тем, когда она принимает значение 0. Можно исследовать основные эффекты и эффекты взаимодействия в конечной модели с помощью методов LinearModel класс следующим образом.

Графики предсказания графика.

figure
plotSlice(mdl)

Figure Prediction Slice Plots contains 4 axes and other objects of type uimenu, uicontrol. Axes 1 contains 5 objects of type line. Axes 2 contains 5 objects of type line. Axes 3 contains 5 objects of type line. Axes 4 contains 5 objects of type line.

Этот график показывает основные эффекты для всех переменных предиктора. Зеленая линия на каждой панели показывает изменение переменной отклика как функцию переменной предиктора, когда все другие переменные предиктора поддерживаются постоянными. Например, для курящего пациента мужского пола в возрасте 37,5 лет ожидаемое артериальное давление увеличивается с увеличением веса пациента, учитывая все остальное.

Пунктирные красные кривые на каждой панели показывают 95% доверительные границы для прогнозируемых значений отклика.

Горизонтальная пунктирная линия на каждой панели показывает прогнозируемый отклик для конкретного значения прогнозирующей переменной, соответствующей вертикальной пунктирной линии. Можно перетащить эти строки, чтобы получить прогнозируемые значения отклика при других значениях предиктора, как показано ниже.

Например, прогнозируемое значение переменной ответа составляет 118,3497, когда пациенткой является женщина, некурящая, возраст 40,3788 и весит 139,9545 фунтов. Значения в квадратных скобках [114.621, 122.079] показывают нижний и верхний пределы 95% доверительного интервала для расчетного ответа. Отметим, что для некурящей пациентки ожидаемое артериальное давление снижается по мере увеличения веса, учитывая, что все остальное поддерживается постоянным.

Постройте график основных эффектов.

plotEffects(mdl)

Figure contains an axes. The axes contains 6 objects of type line.

На этом графике отображаются основные эффекты. Круги показывают величину эффекта, а синие линии показывают верхний и нижний доверительные пределы для основного эффекта. Например, если курильщик увеличивает ожидаемое кровяное давление на 10 единиц по сравнению с некурящим, учитывая, что все остальное поддерживается постоянным. Ожидаемое артериальное давление увеличивается примерно на две единицы для мужчин по сравнению с женщинами, опять же, учитывая другие предикторы, сохраняющиеся постоянными. Увеличение возраста от 25 до 50 лет вызывает ожидаемое увеличение на 4 единицы, в то время как изменение веса от 111 до 202 вызывает снижение ожидаемого артериального давления на 4 единицы, учитывая все остальные постоянные значения.

Эффекты взаимодействия с графиком.

figure
plotInteraction(mdl,'Sex','Weight')

Figure contains an axes. The axes with title Interaction of Sex and Weight contains 11 objects of type line.

Этот график отображает влияние изменения одного коэффициента, учитывая, что другой коэффициент фиксирован в значении.

Будьте осторожны при интерпретации эффектов взаимодействия. Когда не хватает данных по всем комбинациям факторов или данные сильно коррелированы, может быть трудно определить эффект взаимодействия при изменении одного фактора при сохранении другого фиксированным. В таких случаях предполагаемый эффект взаимодействия является экстраполяцией из данных.

Синие круги показывают основной эффект конкретного термина, как на графике основных эффектов. Красные круги показывают влияние изменения одного термина для фиксированных значений другого термина. Например, в нижней половине этого графика красные круги показывают влияние изменения веса у пациентов женского и мужского пола, по отдельности. Можно видеть, что увеличение веса женщины со 111 до 202 фунтов вызывает примерно 14-единичное снижение ожидаемого артериального давления, в то время как увеличение на такую же величину веса мужчины-пациента вызывает примерно 5-единичное увеличение ожидаемого артериального давления, опять же учитывая, что другие предикторы поддерживаются постоянными.

Эффекты прогнозирования графика.

figure
plotInteraction(mdl,'Sex','Weight','predictions')

Figure contains an axes. The axes with title Interaction of Sex and Weight contains 3 objects of type line. These objects represent Sex, Female, Male.

Этот график показывает эффект изменения одной переменной, поскольку другая предикторная переменная поддерживается постоянной. В этом примере последний рисунок показывает переменную ответа, кровяное давление, как функцию веса, когда переменный пол зафиксирован у мужчин и женщин. Линии для мужчин и женщин пересекаются, что указывает на сильное взаимодействие между весом и полом. Вы можете видеть, что ожидаемое кровяное давление увеличивается с увеличением веса пациента мужского пола, но уменьшается с увеличением веса пациента женского пола.

См. также

| | | | |

Связанные темы