Ковариационный анализ

Введение в ковариационный анализ

Ковариационный анализ является методом для анализа сгруппированных данных, имеющих ответ (y, переменная, которая будет предсказана) и предиктор (x, переменная раньше делала прогноз). Используя ковариационный анализ, можно смоделировать y как линейную функцию x с коэффициентами строки, возможно отличающейся от группы группе.

Инструмент ковариационного анализа

Функция aoctool открывает интерактивную графическую среду для подбора кривой и прогноза с ковариационным анализом (АНОКОВА) модели. Это соответствует следующим моделям для i th группа:

То же среднее значение

y = α + ε

Отдельные средние значения

y = (α + αi) + ε

Та же строка

y = α + βx + ε

Параллельные строки

y = (α + αi) + βx + ε

Отдельные строки

y = (α + αi) + (β + βi)x + ε

Например, в параллельных строках моделируют прерывание, отличается от одной группы к следующему, но наклон является тем же самым для каждой группы. В той же средней модели существует общее прерывание и никакой наклон. В порядке сделать коэффициенты группы хорошо определенными, инструмент налагает ограничения

αj=βj=0

Следующие шаги описывают использование aoctool.

  1. Загрузите данные. Набор данных Statistics and Machine Learning Toolbox™ carsmall.mat содержит информацию об автомобилях с лет 1970, 1976, и 1982. Этот пример изучает отношение между весом автомобиля и его пробегом, и изменилось ли это отношение за эти годы. Чтобы запустить демонстрацию, загрузите набор данных.

    load carsmall

    Браузер Рабочей области показывает переменные в наборе данных.

    Можно также использовать aoctool с собственными данными.

  2. Запустите инструмент. Следующая команда вызывает aoctool, чтобы соответствовать отдельной строке к вектор-столбцам Weight и MPG для каждой трех образцовых групп, заданных в Model_Year. Первоначальные подходящие модели  переменная y, MPG, как линейная функция  переменной x, Weight.

    [h,atab,ctab,stats] = aoctool(Weight,MPG,Model_Year);
    

    Смотрите страницу ссылки на функцию aoctool для получения дальнейшей информации о вызове aoctool.

  3. Исследуйте вывод. Вывод графических данных состоит из главного окна с графиком, таблицей содействующих оценок и таблицей дисперсионного анализа. В графике у каждой группы Model_Year есть отдельная строка. Точки данных для каждой группы закодированы с тем же цветом и символом, и пригодное для каждой группы имеет тот же цвет как точки данных.

    Коэффициенты этих трех строк появляются в названных Коэффициентах АНОКОВОЙ фигуры. Вы видите, что наклоны - примерно-0.0078 с маленьким отклонением для каждой группы:

    • Модельный год 1970: y = (45.9798 – 8.5805) + (–0.0078 + 0.002)x + ε

    • Модельный год 1976: y = (45.9798 – 3.8902) + (–0.0078 + 0.0011)x + ε

    • Модельный год 1982: y = (45.9798 + 12.4707) + (–0.0078 – 0.0031)x + ε

    Поскольку три подходящих строки имеют наклоны, которые примерно подобны, можно задаться вопросом, являются ли они действительно тем же самым. Взаимодействие Model_Year*Weight выражает различие в наклонах, и таблица АНОВОЙ показывает тест для значения этого термина. Со статистической величиной F 5,23 и значением p 0,0072, наклоны существенно отличаются.

  4. Ограничьте наклоны быть тем же самым. Чтобы исследовать подгонки, когда наклоны будут ограничены быть тем же самым, возвратитесь к окну Prediction Plot АНОКОВОЙ и используйте всплывающее меню Model, чтобы выбрать модель Parallel Lines. Окно обновляет, чтобы показать следующий график.

    Хотя эта подгонка выглядит разумной, это значительно хуже, чем модель Separate Lines. Используйте всплывающее меню Model снова, чтобы возвратиться к исходной модели.

Доверительные границы

Пример в Инструменте Ковариационного анализа обеспечивает оценки отношения между MPG и Weight для каждого Model_Year, но насколько точный эти оценки? Чтобы узнать, можно наложить доверительные границы на подгонки путем исследования их одна группа за один раз.

  1. В меню Model_Year в нижнем правом углу фигуры измените сходить  с All Groups на 82. Данные и соответствуют другим группам, недоступны, и доверительные границы появляются вокруг этих 82 подгонок.

    Пунктирные линии формируют конверт вокруг подходящей строки в течение модельного года 82. Под предположением, что истинное отношение линейно, эти границы обеспечивают 95%-ю область уверенности для истинной строки. Обратите внимание на то, что подгонки в течение других модельных лет хорошо вне этих доверительных границ для значений Weight между 2000 и 3000.

  2. Иногда более ценно смочь предсказать значение ответа для нового наблюдения, не только оценить среднее значение ответа. Используйте меню Bounds функции aoctool, чтобы изменить определение доверительных границ от Line до Observation. Получившиеся более широкие интервалы отражают неуверенность в оценках параметра, а также случайности нового наблюдения.

    Как функция polytool, функция aoctool имеет крест нитей, который можно использовать, чтобы управлять Weight и смотреть оценку и доверительные границы вдоль обновления оси Y. Эти значения появляются только, когда одна группа выбрана, не, когда All Groups выбран.

Несколько сравнений

Можно выполнить тест сравнения кратного при помощи stats структура вывода от aoctool, как введено к функции multcompare. Функция multcompare может протестировать или наклоны, прерывания или генеральную совокупность крайние средние значения (предсказанный MPG среднего веса для каждой группы). Пример в Инструменте Ковариационного анализа показывает, что наклоны не являются всеми одинаковыми, но могло случиться так, что два то же самое, и только другой отличается? Можно протестировать ту гипотезу.

multcompare(stats,0.05,'on','','s')

ans =
    1.0000    2.0000   -0.0012    0.0008    0.0029
    1.0000    3.0000    0.0013    0.0051    0.0088
    2.0000    3.0000    0.0005    0.0042    0.0079

Эта матрица показывает, что предполагаемое различие между прерываниями групп 1 и 2 (1970 и 1976) 0.0008, и доверительный интервал для различия [–0.0012, 0.0029]. Между двумя нет никакой значительной разницы. Существуют существенные различия, однако, между прерыванием для 1 982 и каждым из других двух. График показывает ту же информацию.

Обратите внимание на то, что структура stats была создана в начальном вызове функции aoctool, таким образом, это основано на начальной образцовой подгонке (обычно модель отдельных строк). Если вы изменяете модель в интерактивном режиме и хотите основывать свои несколько сравнений на новой модели, необходимо запустить aoctool снова, чтобы получить другую структуру stats, на этот раз задав новую модель как первоначальную модель.