Двусторонняя АНОВА

Введение в двустороннюю ANOVA

Можно использовать функцию anova2 для выполнения сбалансированного двустороннего анализа дисперсии (ANOVA). Для выполнения двусторонней ANOVA для несбалансированной конструкции, используйте anovan. Пример см. в разделе Двусторонняя ANOVA для несбалансированного проектирования.

Как и в одностороннем ANOVA, данные для двустороннего исследования ANOVA могут быть экспериментальными или наблюдательными. Разница между односторонней и двусторонней ANOVA заключается в том, что в двусторонней ANOVA представляет интерес влияние двух факторов на переменную ответа. Эти два фактора могут быть независимыми и не иметь эффекта взаимодействия, или влияние одного фактора на переменную отклика может зависеть от группы (уровня) другого фактора. Если два фактора не имеют взаимодействий, модель называется аддитивной моделью.

Предположим, автомобильная компания имеет два завода, и каждый завод делает одинаковые три модели автомобилей. Пробег газа в автомобилях может варьироваться от завода к заводу и от модели к модели. Эти два фактора, заводские и модельные, объясняют различия в пробеге, то есть реакцию. Одним из показателей процента является разница в пробеге из-за методов производства между заводами. Другой мерой интереса является разница в пробеге моделей (независимо от завода) из-за различных конструктивных характеристик. Эффекты этих представляющих интерес показателей являются аддитивными. Кроме того, предположим, что только одна модель имеет различный пробег газа между заводами, в то время как пробег двух других моделей одинаков между заводами. Это называется эффектом взаимодействия. Чтобы измерить эффект взаимодействия, для некоторого сочетания заводской и автомобильной модели должно быть несколько наблюдений. Эти множественные наблюдения называются репликациями.

Двусторонняя ANOVA - частный случай линейной модели. Двусторонняя форма модели ANOVA

$_{yijr} = λ_{} +_{} αi +_{βj} +_{(αβ}$ ) ij + αijr

где,

_yijr - это наблюдение переменной ответа.
- i представляет группу i множителя строки A, i = 1, 2,..., I.
- j представляет группу j коэффициента столбца B, j = 1, 2,..., J.
- r представляет число репликации, r = 1, 2,..., R.
Общее количество наблюдений N = I * J * R.
λ - общее среднее значение.
_αi - отклонения групп, определяемых множителем A строки от общего среднего λ. Значения _αi суммируются до 0.

$_{}^{}_{} ∑i=1Iαi=0.$
_βj - отклонения групп, определяемых по коэффициенту столбца B от общего среднего λ. Значения _βj sum равны 0.

$_{}^{}_{} ∑j=1Jβj=0.$
_αβij - это взаимодействия. Значения в каждой строке и в каждом столбце _αβij суммируются до 0.

$_{}^{∑i=1I} {(αβ}_{)}_{}^{} {ij=∑j=1J (}_{αβ})$ ij = 0.
_αijr - это случайные нарушения. Предполагается, что они независимы, обычно распределены и имеют постоянную дисперсию.

В примере пробега:

_yijr - наблюдения за газовым пробегом, λ - общий средний газовый пробег.
_αi - отклонения газового пробега каждого вагона от среднего газового пробега λ, обусловленного моделью вагона.
_βj - отклонения пробега каждого автомобиля по газу от среднего пробега по газу λ, обусловленного заводом-изготовителем автомобиля.

anova2 требует, чтобы данные были сбалансированы, поэтому каждая комбинация модели и завода должна иметь одинаковое количество автомобилей.

Двусторонняя ANOVA проверяет гипотезы о влиянии факторов A и B и их взаимодействии на переменную ответа y. Гипотезы о равенстве среднего ответа для групп фактора строки А таковы

$\begin{array}{l} _{}_{}_{}_{} \\ _{H0:α1=α2⋯=αIH1} : по крайней мере один_{αi} отличается, i = 1, 2,.. ., I \end{array}$ .

Гипотезы о равенстве среднего ответа для групп фактора столбца B таковы

$\begin{array}{l} _{}_{}_{}_{} \\ _{H0:β1=β2=⋯=βJH1} : по крайней мере , один_{βj} отличается, j = 1, 2, ..., J . \end{array}$

Гипотезы о взаимодействии факторов столбца и строки таковы

$\begin{array}{l} _{H0} : {(αβ}_{)} ij \\ _{=} 0H1: по меньшей мере {один}_{(} αβ \end{array}$ ) ij≠0

Подготовка данных для сбалансированной двусторонней ANOVA

Для выполнения сбалансированной двусторонней ANOVA с использованием anova2, необходимо расположить данные в определенной матричной форме. Столбцы матрицы должны соответствовать группам фактора столбца, B. Строки должны соответствовать группам фактора строки, A, с одинаковым количеством репликаций для каждой комбинации групп факторов A и B.

Предположим, что коэффициент строки A имеет три группы, а коэффициент столбца B имеет две группы (уровня). Также предположим, что каждая комбинация факторов A и B имеет два измерения или наблюдения (reps = 2). Затем каждая группа фактора А имеет шесть наблюдений, и каждая группа фактора В имеет четыре наблюдения.

$\begin{matrix} \begin{matrix} \end{matrix} \\ \begin{matrix} _{} & _{} \\ _{} & _{} \\ _{} & _{} \\ _{} & _{} \\ _{} & _{} \\ _{} & _{} \end{matrix} B=1B=2[y111y121y112y122y211y221y212y222y311y321y312y322] \end{matrix} \begin{matrix} \begin{matrix} \begin{matrix} \end{matrix}} A=1 \\ \begin{matrix} \end{matrix}} A=2 \\ \begin{matrix} \end{matrix}} A=3 \end{matrix} \end{matrix}$

Подстрочные индексы обозначают строку, столбец и репликацию соответственно. Например, y221 соответствует измерению для второй группы фактора А, второй группы фактора В и первой репликации для этой комбинации.

Выполнение двусторонней ANOVA

Открыть сценарий в реальном времени

В этом примере показано, как выполнять двустороннюю ANOVA для определения влияния модели автомобиля и завода на рейтинг пробега автомобилей.

Загрузите и просмотрите данные образца.

load mileage
mileage

mileage = 6×3

   33.3000   34.5000   37.4000
   33.4000   34.8000   36.8000
   32.9000   33.8000   37.6000
   32.6000   33.4000   36.6000
   32.5000   33.7000   37.0000
   33.0000   33.9000   36.7000

Имеются три модели автомобилей (колонки) и два завода (ряда). Данные имеют шесть строк пробега, потому что каждый завод предоставил три автомобиля каждой модели для исследования (то есть номер тиражирования - три). Данные первого завода находятся в первых трех строках, а данные второго завода - в последних трех строках.

Выполнить двустороннюю ANOVA. Возвращает структуру статистики, stats, для использования в нескольких сравнениях.

nmbcars = 3; % Number of cars from each model, i.e., number of replications
[~,~,stats] = anova2(mileage,nmbcars);

Figure Two-way ANOVA contains objects of type uicontrol.

Можно использовать F-статистику для проверки гипотез, чтобы выяснить, является ли пробег одинаковым для моделей, заводов и пар модель - завод. Перед выполнением этих тестов необходимо скорректировать аддитивные эффекты. anova2 возвращает значение p из этих тестов.

Значение p для эффекта модели (Columns) от нуля до четырех десятичных знаков. Этот результат является убедительным свидетельством того, что пробег варьируется в зависимости от модели.

Значение p для эффекта фабрики (Rows) составляет 0,0039, что также очень важно. Это значение указывает на то, что один завод не выполняет другой в пробеге автомобилей, которые он производит. Наблюдаемое значение p указывает на то, что F-статистика столь же экстремальна, как и наблюдаемое F, случайно встречается около четырех из 1000 раз, если пробег газа действительно был равен от завода к заводу.

Фабрики и модели, похоже, не имеют никакого взаимодействия. Значение p, 0,8411, означает, что наблюдаемый результат вероятен (84 из 100 раз), учитывая, что взаимодействия нет.

Выполните несколько сравнений, чтобы выяснить, какая пара из трех моделей автомобиля значительно отличается.

c = multcompare(stats)

Note: Your model includes an interaction term.  A test of main effects can be 
difficult to interpret when the model includes interactions.

Figure Multiple comparison of column means contains an axes. The axes with title Click on the group you want to test contains 7 objects of type line.

c = 3×6

    1.0000    2.0000   -1.5865   -1.0667   -0.5469    0.0004
    1.0000    3.0000   -4.5865   -4.0667   -3.5469    0.0000
    2.0000    3.0000   -3.5198   -3.0000   -2.4802    0.0000

В матрице c, первые две колонки показывают пары моделей автомобилей, которые сравниваются. В последнем столбце показаны значения p для теста. Все p-значения малы (0,0004, 0 и 0), что указывает на то, что средний пробег всех моделей автомобилей значительно отличается друг от друга.

На рисунке синяя планка представляет собой интервал сравнения для среднего пробега первой модели автомобиля. Красные полосы - это интервалы сравнения для среднего пробега второй и третьей моделей автомобилей. Ни один из второго и третьего интервалов сравнения не перекрывается с первым интервалом сравнения, что указывает на то, что средний пробег первой модели автомобиля отличается от среднего пробега второй и третьей моделей автомобиля. Если нажать на одну из других полос, можно протестировать другие модели автомобилей. Ни один из интервалов сравнения не перекрывается, что указывает на то, что средний пробег каждой модели автомобиля значительно отличается от двух других.

Математические детали

Двухфакторная ANOVA разделяет общее изменение на следующие компоненты:

Изменение группы множителей строк означает от общего среднего, ${\overset{}{y}}_{_i} {\overset{}{}}_{}$ ...
Изменение группы факторов столбцов означает от общего среднего значения ${\overset{}{y.}}_{} j {\overset{}{.}}_{− y}$ ...
Изменение общего среднего значения плюс среднее значение репликации от среднего значения множителя столбца плюс среднее значение множителя строки, ${\overset{}{y}}_{_} ij {\overset{}{.}}_{- y _} {\overset{}{i..}}_{} {\overset{}{-}}_{y _}$ j + y _ y...
Изменение наблюдений из средства репликации, $_{yijk} {\overset{}{-}}_{y beth}$ ij.

ANOVA разбивает общую сумму квадратов (SST) на сумму квадратов из-за коэффициента строки A (_SSA), сумму квадратов из-за коэффициента столбца B (_SSB), сумму квадратов из-за взаимодействия A и B (_SSAB) и сумму ошибок квадратов (SSE).

$\begin{array}{l} \underset{}{\underset{}{_{}^{}_{}^{}_{}^{∑i=1m∑j=1k∑r=1R} {(_{} {\overset{}{}}_{yijk−y¯} ...}^{)}}} \underset{)_{}}{\underset{...}{_{}^{} {\overset{}{2SST=kRi=1 м}}_{(} y¯i {\overset{}{}}_{.−y¯}^{}}} \underset{{...}_{)}}{\underset{}{_{}^{} {\overset{}{}}_{2︸SSB+mR\sumj=1k (} {\overset{}{}}_{}^{y¯.j.−y¯}}} \\ \underset{{...}_{)}}{\underset{}{{2︸SSA}_{}^{}_{}^{} {\overset{}{}}_{+R∑i=1m∑j=1k (} {\overset{}{}}_{} {\overset{y¯ij.-y¯i}{}}_{} {\overset{}{}}_{.−y¯.j. +}^{y¯}}} \underset{}{\underset{}{_{}^{2︸SSAB} +_{\sum}^{}_{}^{} {_{} i=1m\sumj=1k\sumr=1R {\overset{}{}}_{}}^{}}} \end{array}$ (yijk−yюij). 2︸SSE

ANOVA принимает изменение из-за фактора или взаимодействия и сравнивает его с изменением из-за ошибки. Если отношение двух вариаций высокое, то эффект фактора или эффект взаимодействия статистически значим. Статистическую значимость можно измерить с помощью статистики теста с F-распределением.

Для нулевой гипотезы, что средний ответ для групп коэффициента строки A равен, тестовая статистика равна

$F \frac{\frac{=_{}}{SSBm}}{\frac{-}{1SSEmk}} (R_{- 1)}$ ∼Fm−1,mk (R − 1).

Для нулевой гипотезы, что средний ответ для групп фактора столбца В равен, тестовая статистика равна

$F \frac{\frac{=_{}}{SSAk}}{\frac{-}{1SSEmk}} (R_{- 1)}$ ∼Fk−1,mk (R − 1).

Для нулевой гипотезы, что взаимодействие факторов столбца и строки равно нулю, тестовая статистика равна

$F \frac{\frac{=_{}}{SSAB (m - 1)}}{\frac{(k}{- 1)}}_{SSEmk (R - 1) ∼F (m -}$ 1) (k − 1), mk (R − 1).

Если значение p для F-статистики меньше уровня значимости, то ANOVA отвергает нулевую гипотезу. Наиболее распространенными уровнями значимости являются 0,01 и 0,05.

Таблица ANOVA

Таблица ANOVA фиксирует изменчивость модели по источнику, F-статистику для проверки значимости этой изменчивости и p-значение для принятия решения о значимости этой изменчивости. Значение p, возвращаемое anova2 зависит от предположений о случайных возмущениях, αij, в уравнении модели. Чтобы значение p было правильным, эти возмущения должны быть независимыми, нормально распределенными и иметь постоянную дисперсию. Стандартная таблица ANOVA имеет следующий вид:

anova2 возвращает стандартную таблицу ANOVA в виде массива ячеек с шестью столбцами.

Колонка	Определение
`Source`	Источник изменчивости.
`SS`	Сумма квадратов для каждого источника.
`df`	Степени свободы, связанные с каждым источником. Предположим, что J - число групп в коэффициенте столбца, I - число групп в коэффициенте строки, а R - число репликаций. Затем общее число наблюдений составляет IJR, а общие степени свободы - IJR - 1. I - 1 - степени свободы для множителя строки, J - 1 - степени свободы для множителя столбца, (I - 1) (J - 1) - степени свободы взаимодействия, и IJ (R - 1) - степени свободы ошибки.
`MS`	Среднее значение квадратов для каждого источника, которое является отношением `SS/df`.
`F`	F-статистика, которая является отношением средних квадратов.
`Prob>F`	Значение p, которое является вероятностью того, что F-статистика может принять значение, большее, чем вычисленное значение test-statistic. `anova2` извлекает эту вероятность из cdF-распределения.

Строки таблицы ANOVA показывают изменчивость данных, разделенных источником.

Строка (источник)	Определение
`Columns`	Изменчивость из-за коэффициента столбца
`Rows`	Изменчивость из-за коэффициента строки
`Interaction`	Изменчивость, обусловленная взаимодействием факторов строки и столбца
`Error`	Изменчивость из-за различий между данными в каждой группе и средним значением группы (изменчивость в группах)
`Total`	Общая изменчивость

Ссылки

[1] Wu, C. F. J. и M. Hamada. Эксперименты: планирование, анализ и оптимизация проектирования параметров, 2000.

[2] Нетер, Дж., М. Х. Кутнер, С. Дж. Нахтсхайм и В. Вассерман. 4-е ред. Прикладные линейные статистические модели. Ирвин Пресс, 1996.

См. также

anova1 | anova2 | anovan | multcompare

Связанные примеры

Двусторонняя ANOVA для несбалансированного проектирования

Документация