Односторонний Дисперсионный Анализ

Введение в односторонний Дисперсионный Анализ

Можно использовать функцию Statistics and Machine Learning Toolbox™ anova1 выполнять односторонний дисперсионный анализ (Дисперсионный Анализ). Цель одностороннего Дисперсионного Анализа состоит в том, чтобы определить, имеют ли данные из нескольких групп (уровни) фактора общее среднее значение. Таким образом, односторонний Дисперсионный Анализ позволяет вам узнать, оказывают ли различные группы независимой переменной различные влияния на переменную отклика y. Предположим, больница хочет определить, предложили ли новые два планировать методы, уменьшают терпеливое время ожидания больше, чем старый способ запланировать назначения. В этом случае независимая переменная является методом планирования, и переменная отклика является временем ожидания пациентов.

Односторонний Дисперсионный Анализ является простым особым случаем линейной модели. Односторонняя форма Дисперсионного Анализа модели

$y_{i j} = α_{j} + ε_{i j}$

со следующими предположениями:

y _{i, j} является наблюдением, в котором i представляет номер наблюдения и j, представляет другую группу (уровень) переменного предиктора y. Весь _i y _j независим.
α _j представляет среднее значение населения для j th группа (уровень или обработка).
ε _{i j} является случайной ошибкой, независимой и нормально распределенной, с нулевым средним и постоянным отклонением, т.е. ε _{i j} ~ N (0, σ ²).

Эта модель также называется средней моделью. В модели принимается, что столбцами y является постоянный α _j плюс ошибочный компонент ε _{i j}. Дисперсионный Анализ помогает определить, являются ли константы всеми одинаковыми.

Дисперсионный Анализ тестирует гипотезу, что все средние значения группы равны по сравнению с альтернативной гипотезой, что по крайней мере одна группа отличается от других.

$\begin{array}{l} H_{0} : α_{1} = α_{2} = ... = α_{k} \\ H_{1} : не все средние значения группы равны \end{array}$

anova1(y) тестирует равенство средних значений столбца для данных в матричном y, где каждый столбец является другой группой и имеет то же количество наблюдений (т.е. сбалансированный план). anova1(y,group) тестирует равенство средних значений группы, заданных в group, для данных в векторном или матричном y. В этом случае у каждой группы или столбца может быть различное количество наблюдений (т.е. несбалансированный проект).

Дисперсионный Анализ основан на предположении, что все демонстрационные популяции нормально распределены. Это, как известно, устойчиво к скромным нарушениям этого предположения. Можно проверять предположение нормальности визуально при помощи графика нормальности (normplot). В качестве альтернативы можно использовать одну из функций Statistics and Machine Learning Toolbox, которая проверяет на нормальность: Критерий Андерсона-Дарлинга (adtest), тест качества подгонки в квадрате хи (chi2gof), тест Jarque-Bera (jbtest), или тест Lilliefors (lillietest).

Подготовка данных для одностороннего Дисперсионного Анализа

Можно обеспечить выборочные данные как вектор или матрицу.

Если выборочные данные находятся в векторе, y, затем необходимо предоставить группирующуюся информацию с помощью group входная переменная: anova1(y,group).
group должен быть числовой вектор, логический вектор, категориальный вектор, символьный массив, массив строк или массив ячеек из символьных векторов, с одним именем для каждого элемента y. anova1 функционируйте обрабатывает y значения, соответствующие тому же значению group как часть той же группы. Например,

Используйте этот проект, когда у групп есть различные числа элементов (разбалансировал Дисперсионный Анализ).
Если выборочные данные находятся в матрице, y, предоставление информации о группе является дополнительным.
- Если вы не задаете входную переменную group, затем anova1 обработки каждый столбец y как отдельная группа, и оценивает, равны ли средние значения населения столбцов. Например,
  Используйте эту форму проекта, когда у каждой группы есть то же число элементов (сбалансировал Дисперсионный Анализ).
- Если вы задаете входную переменную group, затем каждый элемент в group представляет название группы для соответствующего столбца в y. anova1 функционируйте обрабатывает столбцы с тем же названием группы как часть той же группы. Например,

anova1 игнорирует любой NaN значения в y. Кроме того, если group содержит пустой или NaN значения, anova1 игнорирует соответствующие наблюдения в y. anova1 функция выполняет, сбалансировал Дисперсионный Анализ, если у каждой группы есть то же количество наблюдений после того, как функция игнорирует пустой или NaN значения. В противном случае, anova1 выполняет разбалансировал Дисперсионный Анализ.

Выполните односторонний Дисперсионный Анализ

Скрипт Open Live Script

В этом примере показано, как выполнить односторонний Дисперсионный Анализ, чтобы определить, имеют ли данные из нескольких групп общее среднее значение.

Загрузите и отобразите выборочные данные.

load hogg
hogg

hogg = 6×5

    24    14    11     7    19
    15     7     9     7    24
    21    12     7     4    19
    27    17    13     7    15
    33    14    12    12    10
    23    16    18    18    20

Данные прибывают от Хогга и Ледолтера (1987) исследование количеств бактерий в поставках молока. Столбцы матричного hogg представляйте различные поставки. Строки являются количествами бактерий от коробок молока, выбранного случайным образом из каждой отгрузки.

Протестируйте, если некоторые поставки имеют более высокие количества, чем другие. По умолчанию, anova1 возвращает две фигуры. Каждый - стандартная таблица ANOVA, и другой является диаграммами данных группой.

[p,tbl,stats] = anova1(hogg);

p = 1.1971e-04

Маленькое p-значение приблизительно 0,0001 указывает, что количества бактерий от различных поставок не являются тем же самым.

Можно получить некоторое графическое обеспечение, что средние значения отличаются путем рассмотрения диаграмм. Метки, однако, сравнивают медианы, не средние значения. Для получения дополнительной информации об этом отображении смотрите boxplot.

Просмотрите стандартную таблицу ANOVA. anova1 сохранил стандартную таблицу ANOVA как массив ячеек в выходном аргументе tbl.

tbl

tbl=4×6 cell
  Columns 1 through 5

    {'Source' }    {'SS'        }    {'df'}    {'MS'      }    {'F'       }
    {'Columns'}    {[  803.0000]}    {[ 4]}    {[200.7500]}    {[  9.0076]}
    {'Error'  }    {[  557.1667]}    {[25]}    {[ 22.2867]}    {0x0 double}
    {'Total'  }    {[1.3602e+03]}    {[29]}    {0x0 double}    {0x0 double}

  Column 6

    {'Prob>F'    }
    {[1.1971e-04]}
    {0x0 double  }
    {0x0 double  }

Сохраните значение F-статистической-величины в переменной Fstat.

Fstat = tbl{2,5}

Fstat = 9.0076

Просмотрите статистику, необходимую, чтобы сделать кратное попарным сравнением средних значений группы. anova1 сохраняет эти статистические данные в структуре stats.

stats

stats = struct with fields:
    gnames: [5x1 char]
         n: [6 6 6 6 6]
    source: 'anova1'
     means: [23.8333 13.3333 11.6667 9.1667 17.8333]
        df: 25
         s: 4.7209

Дисперсионный Анализ отклоняет нулевую гипотезу, что все средние значения группы равны, таким образом, можно использовать несколько сравнений, чтобы определить, какие средние значения группы отличаются от других. Чтобы провести несколько тестов сравнения, используйте функциональный multcompare, который принимает stats как входной параметр. В этом примере, anova1 отклоняет нулевую гипотезу, что средние количества бактерий от всех четырех поставок равны друг другу, т.е. $H_{0} : μ_{1} = μ_{2} = μ_{3} = μ_{4}$ .

Выполните тест сравнения кратного, чтобы определить, какие поставки отличаются, чем другие в терминах средних количеств бактерий.

multcompare(stats)

ans = 10×6

    1.0000    2.0000    2.4953   10.5000   18.5047    0.0059
    1.0000    3.0000    4.1619   12.1667   20.1714    0.0013
    1.0000    4.0000    6.6619   14.6667   22.6714    0.0001
    1.0000    5.0000   -2.0047    6.0000   14.0047    0.2119
    2.0000    3.0000   -6.3381    1.6667    9.6714    0.9719
    2.0000    4.0000   -3.8381    4.1667   12.1714    0.5544
    2.0000    5.0000  -12.5047   -4.5000    3.5047    0.4806
    3.0000    4.0000   -5.5047    2.5000   10.5047    0.8876
    3.0000    5.0000  -14.1714   -6.1667    1.8381    0.1905
    4.0000    5.0000  -16.6714   -8.6667   -0.6619    0.0292

Первые два столбца показывают, какие средние значения группы друг по сравнению с другом. Например, первая строка сравнивает средние значения для групп 1 и 2. Последний столбец показывает p-значения для тестов. P-значения 0.0059, 0.0013, и 0.0001 указывают, что средние количества бактерий в молоке от первой отгрузки отличаются от тех от вторых, третьих, и четвертых поставок. P-значение 0,0292 указывает, что средние количества бактерий в молоке от четвертой отгрузки отличаются от тех от пятого. Процедуре не удается отклонить гипотезы, что другие средние значения группы отличаются друг от друга.

Фигура также иллюстрирует тот же результат. Синяя панель показывает интервал сравнения для первого среднего значения группы, которое не накладывается с интервалами сравнения для вторых, третьих, и четвертых средних значений группы, отображенных красным. Интервал сравнения для среднего значения пятой группы, отображенной серым, накладывается с интервалом сравнения для первого среднего значения группы. Следовательно, средние значения группы для первых и пятых групп не существенно отличаются друг от друга.

Математические детали

Тесты Дисперсионного Анализа для различия в группе подразумевают под разделением общего изменения данных на два компонента:

Изменение группы означает от полного среднего значения, т.е. ${\bar{y}}_{. j} - {\bar{y}}_{..}$ (изменение между группами), где ${\bar{y}}_{. j}$ демонстрационное среднее значение группы j, и ${\bar{y}}_{..}$ полное демонстрационное среднее значение.
Изменение наблюдений в каждой группе от их группы означает оценки, $y_{i j} - {\bar{y}}_{. j}$ (изменение в группе).

Другими словами, Дисперсионный Анализ делит полную сумму квадратов (SST) в сумму квадратов из-за эффекта между группами (SSR) и суммы квадратичных невязок (SSE).

$\underset{S S T}{\underset{︸}{\sum_{i} \sum_{j} {(y_{i j} - {\bar{y}}_{..})}^{2}}} = \underset{S S R}{\underset{︸}{\sum_{j} n_{j} {({\bar{y}}_{. j} - {\bar{y}}_{..})}^{2}}} + \underset{S S E}{\underset{︸}{\sum_{i} \sum_{j} {(y_{i j} - {\bar{y}}_{. j})}^{2}}},$

где _nj является объемом выборки для j th группа, j = 1, 2..., k.

Затем Дисперсионный Анализ сравнивает изменение между группами к изменению в группах. Если отношение изменения в группе к изменению между группами значительно высоко, то можно прийти к заключению, что средние значения группы существенно отличаются друг от друга. Можно измерить это использование тестовой статистической величины, которая имеет F - распределение с (k – 1, N – k) степени свободы:

$F = \frac{\frac{S S R}{k - 1}}{\frac{S S E}{N - k}} = \frac{M S R}{M S E} ~ F_{k - 1, N - k},$

где MSR является среднеквадратической обработкой, MSE является среднеквадратической ошибкой, k является количеством групп, и N является общим количеством наблюдений. Если p - значение для F - статистическая величина меньше, чем уровень значения, то тест отклоняет нулевую гипотезу, что все средние значения группы равны, и приходит к заключению, что по крайней мере одно из средних значений группы отличается от других. Наиболее распространенные уровни значения 0.05 и 0.01.

Таблица Дисперсионного Анализа

Таблица ANOVA получает изменчивость в модели с разбивкой по источникам, F - статистической величине для тестирования значения этой изменчивости и p - значение для выбора значения этой изменчивости. p - значение, возвращенное anova1 зависит от предположений о случайных воздействиях ε _{i j} в уравнении модели. Для p - значение, чтобы быть правильными, эти воздействия должны быть независимы, нормально распределены, и иметь постоянное отклонение. Стандартная таблица ANOVA имеет эту форму:

anova1 возвращает стандартную таблицу ANOVA как массив ячеек с шестью столбцами.

Столбец	Определение
`Source`	Источник изменчивости.
`SS`	Сумма квадратов из-за каждого источника.
`df`	Степени свободы сопоставлены с каждым источником. Предположим, что N является общим количеством наблюдений, и k является количеством групп. Затем N – k является степенями свободы в группах (`Error`), k – 1 является степенями свободы между группами (`Columns`), и N – 1 является общими степенями свободы: N – 1 = (N – k) + (k – 1).
`MS`	Средние квадратичные для каждого источника, который является отношением `SS/df`.
`F`	F-, которая является отношением средних квадратичных.
`Prob>F`	p - значение, которое является вероятностью, что F - статистическая величина может принять значение, больше, чем вычисленное статистическое тестом значение. `anova1` выводит эту вероятность из cdf F - распределение.

Строки таблицы ANOVA показывают изменчивость в данных, разделенных на источник.

Строка (Источник)	Определение
`Groups` или `Columns`	Изменчивость из-за различий среди средних значений группы (изменчивость между группами)
`Error`	Изменчивость из-за различий между данными в каждой группе и средним значением группы (изменчивость в группах)
`Total`	Общая изменчивость

Ссылки

[1] Ву, C. F. J. и М. Амада. Эксперименты: планирование, анализ и оптимизация проекта параметра, 2000.

[2] Neter, J., М. Х. Катнер, К. Дж. Нахцхайм и В. Вассерман. 4-й редактор Прикладные Линейные Статистические модели. Ирвин Пресс, 1996.

Документация