Ковариационный анализ

Введение в ковариационный анализ

Ковариационный анализ является методом для анализа сгруппированных данных, имеющих ответ (y, переменная, которая будет предсказана) и предиктор (x, переменная раньше делала предсказание). Используя ковариационный анализ, можно смоделировать y как линейную функцию x с коэффициентами линии, возможно варьирующейся от группы группе.

Инструмент ковариационного анализа

aoctool функция открывает интерактивную графическую среду для подбора кривой и предсказания с ковариационным анализом (АНОКОВА) модели. Это подбирает следующие модели для i th группа:

То же среднее значение

y = α + ε

Отдельные средние значения

y = (α + αi) + ε

Та же линия

y = α + βx + ε

Параллельные линии

y = (α + αi) + βx + ε

Отдельные линии

y = (α + αi) + (β + βi)x + ε

Например, в параллельных линиях моделируют точку пересечения, варьируется от одной группы к следующему, но наклон является тем же самым для каждой группы. В той же средней модели существует общая точка пересечения и никакой наклон. Для того, чтобы сделать коэффициенты группы хорошо определенными, инструмент налагает ограничения

αj=βj=0

Следующие шаги описывают использование aoctool.

  1. Загрузите данные. Набор данных Statistics and Machine Learning Toolbox™ carsmall.mat содержит информацию об автомобилях с лет 1970, 1976, и 1982. Этот пример изучает отношение между весом автомобиля и его пробегом, и изменилось ли это отношение за эти годы. Чтобы запустить демонстрацию, загрузите набор данных.

    load carsmall

    Браузер Рабочей области показывает переменные в наборе данных.

    Можно также использовать aoctool с вашими собственными данными.

  2. Запустите инструмент. Следующая команда вызывает aoctool соответствовать отдельной линии к вектор-столбцам Weight и MPG для каждой трех групп модели, заданных в Model_Year. Начальная буква подбирает модели  переменная y, MPG, как линейная функция  переменной x, Weight.

    [h,atab,ctab,stats] = aoctool(Weight,MPG,Model_Year);
    

    Смотрите aoctool страница ссылки на функцию для получения дальнейшей информации о вызове aoctool.

  3. Исследуйте выход. Вывод графических данных состоит из главного окна с графиком, таблицей содействующих оценок и таблицей дисперсионного анализа. В графике, каждом Model_Year у группы есть отдельная линия. Точки данных для каждой группы закодированы с тем же цветом и символом, и пригодное для каждой группы имеет тот же цвет как точки данных.

    Коэффициенты этих трех линий появляются в названных Коэффициентах АНОКОВОЙ фигуры. Вы видите, что наклоны - примерно-0.0078 с маленьким отклонением для каждой группы:

    • Модельный год 1970: y = (45.9798 – 8.5805) + (–0.0078 + 0.002)x + ε

    • Модельный год 1976: y = (45.9798 – 3.8902) + (–0.0078 + 0.0011)x + ε

    • Модельный год 1982: y = (45.9798 + 12.4707) + (–0.0078 – 0.0031)x + ε

    Поскольку три подходящих линии имеют наклоны, которые примерно подобны, можно задаться вопросом, являются ли они действительно тем же самым. Model_Year*Weight взаимодействие описывает различие в наклонах, и таблица ANOVA показывает тест для значения этого термина. Со статистической величиной F 5,23 и значением p 0,0072, наклоны существенно отличаются.

  4. Ограничьте наклоны быть тем же самым. Чтобы исследовать подгонки, когда наклоны будут ограничены быть тем же самым, возвратитесь к окну Prediction Plot АНОКОВОЙ и используйте всплывающее меню Model, чтобы выбрать Parallel Lines модель. Окно обновляется, чтобы показать следующий график.

    Хотя эта подгонка выглядит разумной, это значительно хуже, чем Separate Lines модель. Используйте всплывающее меню Model снова, чтобы возвратиться к исходной модели.

Доверительные границы

Пример в Инструменте Ковариационного анализа обеспечивает оценки отношения между MPG и Weight для каждого Model_Year, но насколько точный эти оценки? Чтобы узнать, можно наложить доверительные границы на подгонки путем исследования их одна группа за один раз.

  1. В меню Model_Year в нижнем правом углу фигуры измените сходить  с All Groups к 82. Данные и соответствуют другим группам, недоступны, и доверительные границы появляются вокруг этих 82 подгонок.

    Пунктирные линии формируют конверт вокруг подходящей линии в течение модельного года 82. Под предположением, что истинное отношение линейно, эти границы обеспечивают 95%-ю область доверия для истинной линии. Обратите внимание на то, что подгонки в течение других модельных лет хорошо вне этих доверительных границ для Weight значения между 2000 и 3000.

  2. Иногда более ценно смочь предсказать значение отклика для нового наблюдения, не только оценить среднее значение отклика. Используйте aoctool функциональное меню Bounds, чтобы изменить определение доверительных границ от Line к Observation. Получившиеся более широкие интервалы отражают неопределенность в оценках параметра, а также случайности нового наблюдения.

    Как polytool функция, aoctool функция имеет крест нитей, который можно использовать, чтобы управлять Weight и см. оценку и доверительные границы вдоль обновления оси Y. Эти значения появляются только, когда одна группа выбрана, не когда All Groups выбран.

Несколько сравнений

Можно выполнить тест сравнения кратного при помощи stats структура output от aoctool как введено к multcompare функция. multcompare функция может протестировать или наклоны, точки пересечения или население крайние средние значения (предсказанный MPG среднего веса для каждой группы). Пример в Инструменте Ковариационного анализа показывает, что наклоны не являются всеми одинаковыми, но могло случиться так, что два то же самое, и только другой отличается? Можно протестировать ту гипотезу.

multcompare(stats,0.05,'on','','s')

ans =
    1.0000    2.0000   -0.0012    0.0008    0.0029
    1.0000    3.0000    0.0013    0.0051    0.0088
    2.0000    3.0000    0.0005    0.0042    0.0079

Эта матрица показывает, что предполагаемое различие между точками пересечения групп 1 и 2 (1970 и 1976) 0.0008, и доверительный интервал для различия [–0.0012, 0.0029]. Между двумя нет никакой значительной разницы. Существуют существенные различия, однако, между точкой пересечения для 1 982 и каждым из других двух. График показывает ту же информацию.

Обратите внимание на то, что stats структура была создана в начальном вызове aoctool функция, таким образом, это основано на начальной подгонке модели (обычно модель отдельных линий). Если вы изменяете модель в интерактивном режиме и хотите основывать свои несколько сравнений на новой модели, необходимо запустить aoctool снова получить другой stats структура, на этот раз задавая вашу новую модель как первоначальную модель.