exponenta event banner

Анализ ковариации

Введение в анализ ковариации

Анализ ковариации представляет собой метод анализа сгруппированных данных, имеющих отклик (y, переменная, подлежащая предсказанию) и предиктор (x, переменная, используемая для предсказания). Используя анализ ковариации, можно моделировать y как линейную функцию x, с коэффициентами прямой, возможно изменяющимися от группы к группе.

Анализ ковариационного инструмента

aoctool функция открывает интерактивную графическую среду для подгонки и прогнозирования с анализом моделей ковариации (ANOCOVA). Он подходит для следующих моделей для i-ой группы:

То же самое среднее

y = α +

Отдельные средства

y = (α + αi) +

Та же линия

y = α + βx +

Параллельные линии

y = (α + αi) + βx +

Отдельные строки

y = (α + αi) + (β + βi) x +

Например, в модели параллельных линий пересечение изменяется от одной группы к другой, но наклон одинаков для каждой группы. В той же средней модели имеется общий пересечение и нет наклона. Чтобы правильно определить групповые коэффициенты, инструмент накладывает ограничения

∑αj=∑βj=0

Следующие шаги описывают использование aoctool.

  1. Загрузите данные. Набор данных Toolbox™ статистики и машинного обучения carsmall.mat содержит информацию об автомобилях 1970, 1976 и 1982 годов. В этом примере изучается взаимосвязь между весом автомобиля и его пробегом, а также то, менялось ли это соотношение с годами. Чтобы начать демонстрацию, загрузите набор данных.

    load carsmall

    В браузере рабочей области отображаются переменные в наборе данных.

    Также можно использовать aoctool с собственными данными.

  2. Запустите инструмент. Следующие вызовы команд aoctool подгонка отдельной строки к векторам столбцов Weight и MPG для каждой из трех групп моделей, определенных в Model_Year. Начальная посадка моделирует  переменную y, MPG, как линейная функция  переменной x, Weight.

    [h,atab,ctab,stats] = aoctool(Weight,MPG,Model_Year);
    

    См. раздел aoctool справочная страница функции для получения подробной информации о вызове aoctool.

  3. Осмотрите выходные данные. Графический вывод состоит из главного окна с графиком, таблицы оценок коэффициентов и таблицы анализа дисперсии. В сюжете каждый Model_Year группа имеет отдельную строку. Точки данных для каждой группы кодируются одним и тем же цветом и символом, а посадка для каждой группы имеет тот же цвет, что и точки данных.

    Коэффициенты трех строк отображаются на рисунке, озаглавленном ANOCOVA Coefficients. Можно видеть, что наклоны примерно -0.0078, с небольшим отклонением для каждой группы:

    • Модель 1970 года: y = (45,9798 - 8,5805) + (-0,0078 + 0,002) x +

    • 1976 модельный год: y = (45,9798 - 3,8902) + (-0,0078 + 0,0011) x +

    • Модель 1982 года: y = (45,9798 + 12,4707) + (-0,0078 - 0,0031) x +

    Поскольку три подогнанные линии имеют примерно одинаковые уклоны, вы можете задаться вопросом, одинаковы ли они на самом деле. Model_Year*Weight взаимодействие выражает разницу в уклонах, и таблица ANOVA показывает тест на значимость этого термина. При статистике F 5,23 и значении p 0,0072 наклоны значительно отличаются.

  4. Закрепите те же уклоны. Чтобы проверить посадки, если наклоны ограничены одинаковыми, вернитесь в окно График прогнозирования АНОКОВА (ANOCOVA Prediction Plot) и используйте всплывающее меню Модель (Model), чтобы выбрать Parallel Lines модель. Окно обновляется, чтобы показать следующий график.

    Хотя эта подгонка выглядит разумно, она значительно хуже, чем Separate Lines модель. Снова используйте всплывающее меню Модель (Model), чтобы вернуться к исходной модели.

Доверительные границы

Пример в Analysis of Covariance Tool предоставляет оценки взаимосвязи между MPG и Weight для каждого Model_Yearно насколько точны эти оценки? Чтобы выяснить это, можно наложить доверительные границы на посадки, исследуя их по одной группе за раз.

  1. В меню Model_Year в правом нижнем углу фигуры измените настройку с All Groups до 82. Данные и посадки для других групп затемняются, и доверительные границы появляются вокруг посадки 82.

    Пунктирные линии образуют конверт вокруг подогнанной линии для 82 модельного года . В предположении, что истинное соотношение является линейным, эти границы обеспечивают 95% доверительную область для истинной линии. Обратите внимание, что соответствия для других модельных лет находятся далеко за пределами этих доверительных границ для Weight значения между 2000 и 3000.

  2. Иногда более важно иметь возможность предсказать значение ответа для нового наблюдения, а не просто оценить среднее значение ответа. Используйте aoctool меню function Bounds для изменения определения доверительных границ из Line кому Observation. Полученные более широкие интервалы отражают неопределенность в оценках параметров, а также случайность нового наблюдения.

    Как и polytool функция, aoctool функция имеет перекрестие, которое можно использовать для манипулирования Weight и смотреть оценки и доверительные границы вдоль обновления оси Y. Эти значения появляются только тогда, когда выбрана одна группа, а не когда All Groups выбран.

Несколько сравнений

Вы можете выполнить несколько сравнительных тестов с помощью stats структура вывода из aoctool в качестве входных данных для multcompare функция. multcompare функция может тестировать либо наклоны, перехваты, либо предельные значения популяции (прогнозируемый MPG среднего веса для каждой группы). Пример в Analysis of Covariance Tool показывает, что наклоны не все одинаковы, но может ли быть, что два одинаковы и только другой отличается? Вы можете проверить эту гипотезу.

multcompare(stats,0.05,'on','','s')

ans =
    1.0000    2.0000   -0.0012    0.0008    0.0029
    1.0000    3.0000    0.0013    0.0051    0.0088
    2.0000    3.0000    0.0005    0.0042    0.0079

Эта матрица показывает, что оценочная разница между перехватами групп 1 и 2 (1970 и 1976) составляет 0,0008, а доверительный интервал для разницы - [-0.0012, 0,0029]. Между ними нет существенной разницы. Однако существуют значительные различия между перехватом 1982 года и каждым из двух других. На графике показана та же самая информация.

Обратите внимание, что stats структура была создана при первоначальном вызове aoctool функция, поэтому она основана на начальной подгонке модели (как правило, модель с отдельными линиями). Если модель изменяется в интерактивном режиме и требуется основывать несколько сравнений на новой модели, необходимо выполнить aoctool снова, чтобы получить еще stats структура, на этот раз указывающая новую модель в качестве начальной.