Двухсторонняя Дисперсионный Анализ

Введение в двухсторонний Дисперсионный Анализ

Вы можете использовать функцию anova2 для выполнения сбалансированного двухстороннего дисперсионного анализа (ANOVA). Для выполнения двухстороннего Дисперсионный Анализ для несбалансированного проекта используйте anovan. Для получения примера смотрите Двухсторонний Дисперсионный Анализ для несбалансированных Проектов.

Как и в однофакторный дисперсионный анализ, данные для двухстороннего исследования ANOVA могут быть экспериментальными или наблюдательными. Различие между односторонним и двухсторонним Дисперсионным Анализом заключается в том, что в двухстороннем Дисперсионном Анализе эффекты двух факторов на переменную отклика представляют интерес. Эти два фактора могут быть независимыми и не иметь эффекта взаимодействия, или влияние одного фактора на переменную отклика может зависеть от группы (уровня) другого фактора. Если два фактора не имеют взаимодействий, модель называется аддитивной моделью.

Предположим, что автомобильная компания имеет два завода, и каждый завод делает одинаковые три модели автомобилей. Пробег газа в автомобилях может варьироваться от завода к заводу и от модели к модели. Эти два фактора, фабрика и модель, объясняют различия в пробеге, то есть ответ. Одной из мер интереса является различие в пробеге из-за методов производства между заводами. Другой мерой интереса является различие в пробеге моделей (независимо от завода) из-за различных проектных спецификаций. Эффекты этих интересующих мер являются аддитивными. В сложение предположим, что только одна модель имеет разный пробег газа между заводами, в то время как пробег двух других моделей одинаковый между заводами. Это называется эффектом взаимодействия. Чтобы измерить эффект взаимодействия, должно быть несколько наблюдений для некоторой комбинации модели завода и автомобиля. Эти многочисленные наблюдения называются репликациями.

Двухсторонний Дисперсионный Анализ является частным случаем линейной модели. Двухсторонняя форма ANOVA модели является

yijr=μ+αi+βj+(αβ)ij+εijr

где,

  • yijr является наблюдением переменной отклика.

    • i представляет i группы коэффициента A строки, i = 1, 2,..., I.

    • j представляет j группы коэффициента B, j = 1, 2,..., J.

    • r представляет номер репликации, r = 1, 2,..., R.

    Всего наблюдений N = I * J * R.

  • μ - общее среднее.

  • αi - отклонения групп, заданные коэффициентом строка A от общего среднего μ. Значения αi суммы равны 0.

    i=1Iαi=0.

  • βj - отклонения групп, заданные столбцом B от общего среднего μ. Значения βj суммы равны 0.

    j=1Jβj=0.

  • αβij взаимодействия. Значения в каждой строке и в каждом столбце αβij суммы равны 0.

    i=1I(αβ)ij=j=1J(αβ)ij=0.

  • εijr случайные нарушения порядка. Они приняты независимыми, обычно распределенными и имеют постоянное отклонение.

В примере пробега:

  • yijr наблюдения пробега газа, μ является общим средним пробегом газа.

  • αi - отклонения пробега газа каждого автомобиля от среднего пробега газа, μ из-за модели автомобиля.

  • βj являются отклонения пробега газа каждого автомобиля от среднего пробега газа, μ из-за завода автомобиля.

anova2 требует, чтобы данные были сбалансированы, поэтому каждая комбинация модели и завода должна иметь одинаковое количество автомобилей.

Двухсторонний Дисперсионный Анализ проверяет гипотезы о эффектах факторов A и B и их взаимодействии на переменные y отклика. Гипотезы о равенстве среднего отклика для групп строки факторных A

H0:α1=α2=αIH1: по крайней мере один αi отличается , i=1, 2, ..., I.

Гипотезы о равенстве среднего отклика для групп столбца факторных B

H0:β1=β2==βJH1: по крайней мере один βj отличается ,  j=1, 2, ..., J.

Гипотезы о взаимодействии фактора столбца и строки следующие

H0:(αβ)ij=0H1:по крайней мере один (αβ)ij0

Подготовка данных для сбалансированного двухстороннего Дисперсионный Анализ

Для выполнения сбалансированного двухстороннего Дисперсионный Анализ с помощью anova2необходимо расположить данные в определенной матричной форме. Столбцы матрицы должны соответствовать группам коэффициента столбца, B. Строки должны соответствовать группам коэффициента строки, A, с одинаковым количеством репликаций для каждой комбинации групп факторов A и B.

Предположим, что коэффициент строки A имеет три группы, а коэффициент столбца B имеет две группы (уровни). Также предположим, что каждая комбинация факторов A и B имеет два измерения или наблюдения (reps = 2). Затем каждая группа факторных A имеет шесть наблюдений и каждая группа факторных B четыре наблюдения.

B=1B=2[y111y121y112y122y211y221y212y222y311y321y312y322]}A=1}A=2}A=3

Индексы указывают строку, столбец и репликацию соответственно. Для примера y 221 соответствует измерению для второй группы факторов A, второй группы факторов B и первой репликации для этой комбинации.

Выполнение двухстороннего Дисперсионный Анализ

В этом примере показано, как выполнить двухсторонний Дисперсионный Анализ, чтобы определить эффект модели автомобиля и завода на рейтинг пробега автомобилей.

Загрузка и отображение выборочных данных.

load mileage
mileage
mileage = 6×3

   33.3000   34.5000   37.4000
   33.4000   34.8000   36.8000
   32.9000   33.8000   37.6000
   32.6000   33.4000   36.6000
   32.5000   33.7000   37.0000
   33.0000   33.9000   36.7000

Существует три модели автомобилей (столбцы) и два завода (строки). Данные имеют шесть строк пробега, потому что каждый завод предоставил для исследования три автомобиля каждой модели (то есть номер репликации - три). Данные с первого завода находятся в первых трех строках, а данные со второго завода - в последних трех строках.

Выполните двухсторонний Дисперсионный Анализ. Верните структуру статистики, stats, для использования в нескольких сравнениях.

nmbcars = 3; % Number of cars from each model, i.e., number of replications
[~,~,stats] = anova2(mileage,nmbcars);

Figure Two-way ANOVA contains objects of type uicontrol.

Можно использовать F-статистику, чтобы выполнить проверку гипотез, чтобы выяснить, является ли пробег одинаковым для моделей, фабрик и заводских пар. Перед выполнением этих тестов вы должны скорректировать аддитивные эффекты. anova2 возвращает p-значение из этих тестов.

Значение p для эффекта модели (Columns) от нуля до четырех десятичных знаков. Этот результат является сильным показателем того, что пробег изменяется от одной модели к другой.

Значение p для заводского эффекта (Rows) составляет 0,0039, что также очень важно. Это значение указывает, что один завод не работает другой в пробеге газа автомобилей, которые он производит. Наблюдаемое значение p указывает, что F-статистическая величина, столь же крайняя, как наблюдаемая F, происходит случайно примерно в четыре раза из 1000 раз, если пробег газа был действительно равен от завода к заводу.

Фабрики и модели, по-видимому, не имеют взаимодействия. Значение p, 0,8411, означает, что наблюдаемый результат вероятен (84 из 100 раз), учитывая, что нет взаимодействия.

Выполните несколько сравнений, чтобы выяснить, какая пара из трех моделей автомобиля значительно отличается.

c = multcompare(stats)
Note: Your model includes an interaction term.  A test of main effects can be 
difficult to interpret when the model includes interactions.

Figure Multiple comparison of column means contains an axes. The axes with title Click on the group you want to test contains 7 objects of type line.

c = 3×6

    1.0000    2.0000   -1.5865   -1.0667   -0.5469    0.0004
    1.0000    3.0000   -4.5865   -4.0667   -3.5469    0.0000
    2.0000    3.0000   -3.5198   -3.0000   -2.4802    0.0000

В матричном cв первых двух столбцах показаны пары моделей автомобилей, которые сравниваются. В последнем столбце показаны значения p для теста. Все значения p малы (0,0004, 0 и 0), что указывает на то, что средний пробег всех моделей автомобиля значительно отличается друг от друга.

На рисунке синяя полоса является интервалом сравнения для среднего пробега первой модели автомобиля. Красные полоски являются интервалами сравнения для среднего пробега второй и третьей моделей автомобиля. Ни один из второго и третьего интервалов сравнения не перекрывается с первым интервалом сравнения, что указывает на то, что средний пробег первой модели автомобиля отличается от среднего пробега второй и третьей моделей автомобиля. Если вы нажмете на один из других баров, можно протестировать на другие модели автомобиля. Ни один из интервалов сравнения не перекрывается, что указывает на то, что средний пробег каждой модели автомобиля значительно отличается от двух других.

Математические детали

Двухфакторный Дисперсионный Анализ разбивает общее изменение на следующие компоненты:

  • Изменение группы коэффициентов строк означает от общего среднего, y¯i..y¯...

  • Изменение группы коэффициентов столбца означает от общего среднего, y¯.j.y¯...

  • Изменение общего среднего плюс среднего репликации из средней группы факторов столбца плюс средней группы факторов строки, y¯ij.y¯i..y¯.j.+y¯...

  • Изменение наблюдений от средств репликации, yijky¯ij.

Дисперсионный Анализ разбивает общую сумму квадратов (SST) на сумму квадратов из-за коэффициента A строк (SS A), сумму квадратов из-за фактора B столбцов (SS B), сумму квадратов из-за взаимодействия между A и B (SS AB) и сумму ошибки квадратов (SSE).

i=1mj=1kr=1R(yijky¯...)2SST=kRi=1m(y¯i..y¯...)2SSB+mRj=1k(y¯.j.y¯...)2SSA+Ri=1mj=1k(y¯ij.y¯i..y¯.j.+y¯...)2SSAB+i=1mj=1kr=1R(yijky¯ij.)2SSE

Дисперсионный Анализ принимает изменение из-за фактора или взаимодействия и сравнивает ее с изменением из-за ошибки. Если отношение двух изменений высокое, то эффект фактора или эффекта взаимодействия статистически значим. Статистическую значимость можно измерить с помощью тестовой статистики, которая имеет F -распределение.

Для нулевой гипотезы, что средний ответ для групп A фактора строки равны, тестовая статистика

F=SSBm1SSEmk(R1)Fm1,mk(R1).

Для нулевой гипотезы о том, что средний ответ для групп B фактора-столбца равен, тестовая статистика

F=SSAk1SSEmk(R1)Fk1,mk(R1).

Для нулевой гипотезы, что взаимодействие столбца и строки факторов равны нулю, тестовая статистика является

F=SSAB(m1)(k1)SSEmk(R1)F(m1)(k1),mk(R1).

Если p -value для F -statistic меньше уровня значимости, то Дисперсионный Анализ отвергает нулевую гипотезу. Наиболее распространенными уровнями значимости являются 0,01 и 0,05.

Дисперсионный Анализ

Таблица ANOVA захватывает изменчивость модели источником, F-статическим для проверки значимости этой изменчивости и p-значением для принятия решения о значимости этой изменчивости. Значение p, возвращенное anova2 зависит от допущений о случайных возмущениях, ε i j, в уравнении модели. Чтобы p-значение было правильным, эти нарушения порядка должны быть независимыми, обычно распределенными и иметь постоянное отклонение. Стандартная таблица ANOVA имеет следующую форму:

anova2 возвращает стандартную таблицу ANOVA в виде массива ячеек с шестью столбцами.

СтолбецОпределение
SourceИсточник изменчивости.
SSСумма квадратов из-за каждого источника.
dfСтепени свободы, связанные с каждым источником. Предположим J что это количество групп в факторе столбца, I - количество групп в факторе строки, и R - количество репликаций. Затем общее количество наблюдений IJR и общие степени свободы IJR - 1. I - 1 является степенями свободы для фактора-строки, J - 1 является степенями свободы для фактора-столбца, (I - 1) (J - 1) является степенями свободы взаимодействия, а IJ (R - 1) является степенями свободы-ошибки.
MSСреднее значение квадратов для каждого источника, которое является отношением SS/df.
FF -статистический, который является отношением средних квадратов.
Prob>FЗначение p -value, которое является вероятностью того, что F -statistic может взять значение, больше вычисленного тестово-статистического значения. anova2 выводит эту вероятность из cdf F -распределения.

Строки таблицы ANOVA показывают изменчивость данных, разделенных источником.

Строка (источник)Определение
ColumnsИзменчивость из-за фактора столбца
RowsИзменчивость из-за коэффициента строки
InteractionИзменчивость из-за взаимодействия факторов строки и столбца
ErrorИзменчивость из-за различий между данными в каждой группе и средним значением группы (изменчивость в группах)
TotalОбщая изменчивость

Ссылки

[1] Wu, C. F. J., and M. Hamada. Эксперименты: Планирование, анализ и оптимизация проекта параметров, 2000.

[2] Нетер, Дж., М. Х. Кутнер, К. Дж. Нахтсхайм и У. Вассерман. 4-е ред. Прикладные линейные статистические модели. Ирвин Пресс, 1996.

См. также

| | |

Похожие примеры

Подробнее о