Линейная регрессия с эффектами взаимодействия

Создайте и анализируйте модель линейной регрессии с эффектами взаимодействия и интерпретируйте результаты.

Загрузка демонстрационных данных.

load hospital

Чтобы сохранить только первый столбец кровяного давления, храните данные в новом массиве набора данных.

ds = dataset(hospital.Sex,hospital.Age,hospital.Weight,hospital.Smoker,...
hospital.BloodPressure(:,1),'Varnames',{'Sex','Age','Weight','Smoker',...
'BloodPressure'});

Выполните пошаговую линейную регрессию.

Для первоначальной модели используйте полную модель со всеми условиями и их попарными взаимодействиями.

mdl = stepwiselm(ds,'interactions')
1. Removing Sex:Smoker, FStat = 0.050738, pValue = 0.8223
2. Removing Weight:Smoker, FStat = 0.07758, pValue = 0.78124
3. Removing Age:Weight, FStat = 1.9717, pValue = 0.16367
4. Removing Sex:Age, FStat = 0.32389, pValue = 0.57067
5. Removing Age:Smoker, FStat = 2.4939, pValue = 0.11768
mdl = 
Linear regression model:
    BloodPressure ~ 1 + Age + Smoker + Sex*Weight

Estimated Coefficients:
                       Estimate       SE        tStat       pValue  
                       ________    ________    _______    __________

    (Intercept)         133.17       10.337     12.883      1.76e-22
    Sex_Male           -35.269       17.524    -2.0126      0.047015
    Age                0.11584     0.067664      1.712      0.090198
    Weight             -0.1393     0.080211    -1.7367      0.085722
    Smoker_1            9.8307       1.0229     9.6102    1.2391e-15
    Sex_Male:Weight     0.2341      0.11192     2.0917      0.039162


Number of observations: 100, Error degrees of freedom: 94
Root Mean Squared Error: 4.72
R-squared: 0.53,  Adjusted R-Squared: 0.505
F-statistic vs. constant model: 21.2, p-value = 4e-14

Итоговой моделью в форме формулы является BloodPressure ~ 1 + Age + Smoker + Sex*Weight. Эта модель включает все четыре основных эффекта (Возраст, Курильщик, Пол, Вес) и двухстороннее взаимодействие между Sex и Weight. Эта модель соответствует

BP=β0+βAXA+βSmISm+βSIS+βWXW+βSWXWIS+ϵ,

где

  • BP кровяное давление

  • βi коэффициенты

  • ISm переменная индикатора для курения; ISm=1 указывает на курящего пациента тогда как ISm=0 указывает на пациента для некурящих

  • IS переменная индикатора для пола; IS=1 указывает на штекерного пациента тогда как IS=0 указывает на пациентку

  • XA переменная Age

  • XW переменная Weight

  • ϵ остаточный член

Следующая таблица показывает подходящую линейную модель для каждого пола и курения комбинации.

ISmISЛинейная модель1(Курильщик)1(Штекер)BP=(β0+βSm+βS)+βAXA+(βW+βSW)XWBPˆ=107.5617+0.11584XA+0.11826XW1(Курильщик)0(Розетка)BP=(β0+βSm)+βAXA+βWXWBPˆ=143.0007+0.11584XA-0.1393XW0(Некурящий)1(Штекер)BP=(β0+βS)+βAXA+(βW+βSW)XWBPˆ=97.901+0.11584XA+0.11826XW0(Некурящий)0(Розетка)BP=β0+βAXA+βWXWBPˆ=133.17+0.11584XA-0.1393XW

Как замечено по этим моделям, βSm и βS покажите, сколько изменяет прерывание функции отклика, когда переменная индикатора принимает значение 1 по сравнению с тем, когда это принимает значение 0. βSW, однако, показывает эффект переменной Weight на переменной отклика, когда переменная индикатора для пола принимает значение 1 по сравнению с тем, когда это принимает значение 0. Можно исследовать основные эффекты и эффекты взаимодействия в итоговой модели с помощью методов класса LinearModel можно следующим образом.

Постройте графики среза прогноза.

figure
plotSlice(mdl)

Этот график показывает основные эффекты для всех переменных прогноза. Зеленая строка в каждом телевикторины изменение в переменной отклика как функция переменной прогноза, когда все другие переменные прогноза считаются постоянные. Например, для курящего штекерного пациента в возрасте 37,5, ожидаемое кровяное давление увеличивается как вес терпеливых увеличений, учитывая все остальное то же самое.

Пунктирные красные кривые в каждой телевикторине 95% доверительных границ для предсказанных значений ответа.

Горизонтальная пунктирная линия в каждом телевикторины предсказанный ответ для определенного значения переменной прогноза, соответствующей вертикальной пунктирной линии. Можно перетащить эти строки, чтобы получить предсказанные значения ответа в других значениях предиктора, как показано затем.

Например, ожидаемое значение переменной отклика 118.3497, когда пациентка является розеткой, для некурящих, возраст 40.3788, и взвешивает 139,9545 фунтов. Значения в квадратных скобках, [114.621, 122.079], показывают нижние и верхние пределы 95%-го доверительного интервала для предполагаемого ответа. Обратите внимание на то, что, для пациентки для некурящих, ожидаемые уменьшения кровяного давления, когда вес увеличивается, учитывая все остальное считается постоянным.

Постройте основные эффекты.

plotEffects(mdl)

Этот график отображает основные эффекты. Круги показывают значение эффекта, и синие строки показывают верхние и более низкие пределы достоверности для основного эффекта. Например, быть курильщиком увеличивает ожидаемое кровяное давление на 10 модулей, по сравнению с тем, чтобы быть некурящим, учитывая все остальное считается постоянным. Ожидаемое кровяное давление увеличивает приблизительно два модуля для штекеров по сравнению с розетками, снова, учитывая другие предикторы, сохраненные постоянными. Увеличение возраста от 25 до 50 причин ожидаемое увеличение 4 модулей, тогда как изменение в весе от 111 до 202 причин об уменьшении с 4 модулями в ожидаемом кровяном давлении, учитывая все остальное сохраненное постоянным.

Постройте эффекты взаимодействия.

figure
plotInteraction(mdl,'Sex','Weight')

Этот график отображается, влияние изменения в одном факторе, учитывая другой фактор фиксируется в значении.

Будьте осторожны при интерпретации эффектов взаимодействия. Когда существует недостаточно данных по всем факторным комбинациям, или данные высоко сопоставляются, может быть трудно определить эффект взаимодействия изменения одного фактора при хранении другого фиксированного. В таких случаях предполагаемый эффект взаимодействия является экстраполяцией от данных.

Синие круги показывают основной эффект конкретного термина, как в основном графике эффектов. Красные круги показывают влияние изменения в одном термине для фиксированных значений другого термина. Например, в нижней половине этого графика, красные круги показывают влияние изменения веса в розеточных и штекерных пациентах, отдельно. Вы видите, что увеличение веса розетки от 111 до 202 фунтов вызывает об уменьшении с 14 модулями в ожидаемом кровяном давлении, в то время как увеличение той же суммы в весе штекерных причин пациента об увеличении с 5 модулями ожидаемого кровяного давления, снова, учитывая другие предикторы считаются постоянными.

Постройте эффекты прогноза.

figure
plotInteraction(mdl,'Sex','Weight','predictions')

Этот график показывает эффект замены одной переменной, когда другая переменная прогноза считается постоянная. В этом примере последние данные показывают переменную отклика, кровяное давление, как функция веса, когда переменный пол фиксируется в штекерах и розетках. Строки для штекеров и розеток пересекаются, который указывает на сильное взаимодействие между весом и полом. Вы видите, что ожидаемое кровяное давление увеличивается, когда вес штекерного пациента увеличивается, но уменьшается, как вес пациентки увеличивается.

Смотрите также

| | | | |

Похожие темы