anovan

N-сторонний дисперсионный анализ

Описание

пример

p = anovan(y,group) возвращает вектор p-значений, по одному на член, для многостороннего (n -way) дисперсионного анализа (ANOVA) для проверки эффектов нескольких факторов на среднее значение вектора y.

anovan Также отображается рисунок, показывающий стандартную таблицу ANOVA.

пример

p = anovan(y,group,Name,Value) возвращает вектор значений p для multivay (n -way) Дисперсионный Анализ с помощью дополнительных опций, заданных одним или несколькими Name,Value аргументы в виде пар.

Для примера можно задать, какая переменная предиктора является непрерывной, если она есть, или тип суммы квадратов, которые нужно использовать.

[p,tbl] = anovan(___) возвращает таблицу ANOVA (включая метки факторов) в массиве ячеек tbl для любого из входных параметров, заданных в предыдущих синтаксисах. Скопируйте текстовую версию таблицы ANOVA в буфер обмена с помощью Copy Text элемент в меню Edit.

пример

[p,tbl,stats] = anovan(___) возвращает stats структура, которую можно использовать для выполнения нескольких сравнительных тестов, что позволяет определить, какие пары групповых средств значительно отличаются. Вы можете выполнить такой тест, используя multcompare функция путем предоставления stats структура как вход.

[p,tbl,stats,terms] = anovan(___) возвращает основные термины и термины взаимодействия, используемые в расчетах Дисперсионный Анализ в terms.

Примеры

свернуть все

Загрузите выборочные данные.

y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]';
g1 = [1 2 1 2 1 2 1 2]; 
g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'}; 
g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};

y - вектор отклика и g1, g2, и g3 являются сгруппированными переменными (факторами). Каждый фактор имеет два уровня и каждое наблюдение в y определяется комбинацией уровней факторов. Для примера, y(1) наблюдений связана с уровнем 1 фактора g1, уровни 'hi' фактора g2, и уровни 'may' фактора g3. Точно так же y(6) наблюдений связана с уровнем 2 фактора g1, уровни 'hi' фактора g2, и уровни 'june' фактора g3.

Проверьте, является ли реакция одинаковой для всех уровней факторов.

p = anovan(y,{g1,g2,g3})

Figure N-Way ANOVA contains objects of type uicontrol.

p = 3×1

    0.4174
    0.0028
    0.9140

В таблице ANOVA X1, X2, и X3 соответствуют факторам g1, g2, и g3, соответственно. Значение p 0,4174 указывает, что средние отклики для уровней 1 и 2 фактора g1 существенно не отличаются. Точно так же значение p 0,914 указывает, что средние отклики для уровней 'may' и 'june', фактора g3 существенно не отличаются. Однако p-значение 0,0028 достаточно мало, чтобы сделать вывод, что средние отклики значительно различаются для двух уровней 'hi' и 'lo' фактора g2. По умолчанию anovan вычисляет значения p только для трех основных эффектов.

Протестируйте двухфакторные взаимодействия. На этот раз задайте имена переменных.

p = anovan(y,{g1 g2 g3},'model','interaction','varnames',{'g1','g2','g3'})

Figure N-Way ANOVA contains objects of type uicontrol.

p = 6×1

    0.0347
    0.0048
    0.2578
    0.0158
    0.1444
    0.5000

Условия взаимодействия представлены g1*g2, g1*g3, и g2*g3 в таблице ANOVA. Первые три записи p являются значениями p для основных эффектов. Последние три записи являются значениями p для двухсторонних взаимодействий. Значение p 0,0158 указывает, что взаимодействие между g1 и g2 является значительным. Значения p 0,1444 и 0,5 указывают, что соответствующие взаимодействия не значительны.

Загрузите выборочные данные.

load carbig

Данные имеют измерения на 406 автомобилях. Переменная org показывает, где были сделаны и when автомобили показывает, когда в году машины были изготовлены.

Изучите, как зависит пробег от того, когда и где были сделаны машины. Также включите двухсторонние взаимодействия в модель.

p = anovan(MPG,{org when},'model',2,'varnames',{'origin','mfg date'})

Figure N-Way ANOVA contains objects of type uicontrol.

p = 3×1

    0.0000
    0.0000
    0.3059

The 'model',2 аргумент пары "имя-значение" представляет двухсторонние взаимодействия. Значение p для члена взаимодействия, 0,3059, не мало, что указывает на мало доказательств того, что эффект времени изготовления (mfg date) зависит от того, где сделан автомобиль (origin). Однако основные эффекты источника и даты производства значительны, оба значения p равны 0.

Загрузите выборочные данные.

y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]';
g1 = [1 2 1 2 1 2 1 2];
g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'};
g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};

y - вектор отклика и g1, g2, и g3 являются сгруппированными переменными (факторами). Каждый фактор имеет два уровня и каждое наблюдение в y определяется комбинацией уровней факторов. Для примера, y(1) наблюдений связана с уровнем 1 фактора g1, уровни 'hi' фактора g2, и уровни 'may' фактора g3. Точно так же y(6) наблюдений связана с уровнем 2 фактора g1, уровни 'hi' фактора g2, и уровни 'june' фактора g3.

Проверьте, является ли реакция одинаковой для всех уровней факторов. Также вычислите статистику, необходимую для нескольких сравнительных тестов.

[~,~,stats] = anovan(y,{g1 g2 g3},'model','interaction',...
    'varnames',{'g1','g2','g3'});

Figure N-Way ANOVA contains objects of type uicontrol.

Значение p 0,2578 указывает, что средние отклики для уровней 'may' и 'june' фактора g3 существенно не отличаются. Значение p 0,0347 указывает, что средние отклики для уровней 1 и 2 фактора g1 значительно отличаются. Точно так же значение p 0,0048 указывает, что средние отклики для уровней 'hi' и 'lo' фактора g2 значительно отличаются.

Выполните несколько сравнительных тестов, чтобы выяснить, какие группы факторов g1 и g2 значительно отличаются.

results = multcompare(stats,'Dimension',[1 2])

Figure Multiple comparison of population marginal means contains an axes. The axes with title Click on the group you want to test contains 9 objects of type line.

results = 6×6

    1.0000    2.0000   -6.8604   -4.4000   -1.9396    0.0272
    1.0000    3.0000    4.4896    6.9500    9.4104    0.0170
    1.0000    4.0000    6.1396    8.6000   11.0604    0.0136
    2.0000    3.0000    8.8896   11.3500   13.8104    0.0101
    2.0000    4.0000   10.5396   13.0000   15.4604    0.0087
    3.0000    4.0000   -0.8104    1.6500    4.1104    0.0737

multcompare сравнивает комбинации групп (уровней) двух сгруппированных переменных, g1 и g2. В results матрица, число 1 соответствует комбинации уровней 1 от g1 и уровни hi от g2, число 2 соответствует комбинации уровней 2 от g1 и уровни hi от g2. Точно так же число 3 соответствует комбинации уровней 1 от g1 и уровни lo от g2, и число 4 соответствует комбинации уровней 2 от g1 и уровни lo от g2. Последний столбец матрицы содержит p-значения.

Для примера первая строка матрицы показывает, что комбинация уровней 1 от g1 и уровни hi от g2 имеет те же средние значения отклика, что и комбинация 2 уровня от g1 и уровни hi от g2. Значение p, соответствующее этому тесту, составляет 0,0280, что указывает на то, что средние отклики значительно отличаются. Этот результат можно также увидеть на рисунке. Синяя полоса показывает интервал сравнения для средней характеристики для комбинации уровней 1 от g1 и уровни hi от g2. Красные полосы являются интервалами сравнения для среднего отклика для других комбинаций групп. Ни одна из красных полос не перекрывается с синей полоской, что означает среднюю характеристику для комбинации 1 уровня от g1 и уровни hi от g2 значительно отличается от среднего отклика для других групповых комбинаций.

Можно протестировать другие группы, щелкнув на соответствующем интервале сравнения для группы. Панель, на которой вы нажимаете, становится синей. Столбцы для групп, которые значительно отличаются, являются красными. Столбцы для групп, которые существенно не отличаются, являются серыми. Для примера, если вы кликните по интервалу сравнения для комбинации уровней 1 от g1 и уровни lo от g2, интервал сравнения для комбинации уровней 2 от g1 и уровни lo от g2 перекрывается, и поэтому является серым. И наоборот, другие интервалы сравнения являются красными, что указывает на значительное различие.

Входные параметры

свернуть все

Выборочные данные, заданная как числовой вектор.

Типы данных: single | double

Сгруппированные переменные, т.е. факторов и уровней факторов наблюдений в y, заданный как массив ячеек. Каждая из камер в group содержит список уровней факторов, идентифицирующих наблюдения в y в отношении одного из факторов. Список внутри каждой камеры может быть категориальным массивом, числовым вектором, символьной матрицей, строковыми массивами или одноколоночным массивом ячеек векторов символов и должен иметь то же количество элементов, что и y.

y=[y1,y2,y3,y4,y5,,yN]g1={'A','A','C','B','B',,'D'}g2=[12131,2]g3={'привет','середина','низко','середина','привет',,'низко'}

По умолчанию, anovan рассматривает все сгруппированные переменные как фиксированные эффекты.

Например, в исследовании вы хотите исследовать эффекты пола, школы и метода обучения на успехи в учебе учащихся начальной школы, тогда можно задать сгруппированные переменные следующим образом.

Пример: {'Gender','School','Method'}

Типы данных: cell

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

Пример: 'alpha',0.01,'model','interaction','sstype',2 задает anovan вычислить 99% доверия границы и p-значения для основных эффектов и двухсторонних взаимодействий с помощью суммы квадратов типа II.

Уровень значимости для доверительных границ, заданный как разделенная разделенными запятой парами, состоящая из 'alpha' и скалярное значение в области значений от 0 до 1. Для значения α доверительный уровень равен 100 * (1-α)%.

Пример: 'alpha',0.01 соответствует 99% доверительных интервалов

Типы данных: single | double

Индикатор для непрерывных предикторов, представляющий, какие сгруппированные переменные должны рассматриваться как непрерывные предикторы, а не как категориальные предикторы, заданные как разделенная разделенными запятой парами, состоящая из 'continuous' и вектор индексов.

Например, если существуют три сгруппированные переменные, а вторая непрерывна, то можно задать следующим образом.

Пример: 'continuous',[2]

Типы данных: single | double

Индикатор для отображения таблицы ANOVA, заданный как разделенная разделенными запятой парами, состоящая из 'display' и 'on' или 'off'. Когда 'display' является 'off', anovan возвращает только выходные аргументы и не отображает стандартную таблицу ANOVA как рисунок.

Пример: 'display','off'

Тип модели, заданный как разделенная разделенными запятой парами, состоящая из 'model' и одно из следующих:

  • 'linear' - Значение по умолчанию 'linear' модель вычисляет только p -значения для нулевых гипотез на N основных эффектах.

  • 'interaction' - The 'interaction' модель вычисляет p значения для нулевых гипотез на N основных эффектах и (N2) двухфакторные взаимодействия.

  • 'full' - The 'full' модель вычисляет p значения для нулевых гипотез на N основных эффектах и взаимодействиях на всех уровнях.

  • Целое число - Для целого значения k (kN) для типа модели, anovan вычисляет все уровни взаимодействия через k-й уровень. Для примера значение 3 означает основные эффекты плюс двух- и трехфакторные взаимодействия. Значения k = 1 и k = 2 эквивалентны 'linear' и 'interaction' спецификации, соответственно. Значение k = N эквивалентно 'full' спецификация.

  • Матрица терминов - матрица определений терминов, имеющих ту же форму, что и вход в x2fx функция. Все записи должны быть 0 или 1 (без высших степеней).

    Для более точного контроля над основными терминами и терминами взаимодействия, которые anovan вычисляет, можно задать матрицу, содержащую по одной строке для каждого основного термина или термина взаимодействия, включаемого в модель ANOVA. Каждая строка задает один член, используя вектор с N нулями и таковыми. Приведенная ниже таблица иллюстрирует кодирование для 3-факторного ANOVA для факторов A, B и C.

    Строка матрицыДисперсионный Анализ

    [1 0 0]

    Основной термин A

    [0 1 0]

    Основной термин B

    [0 0 1]

    Основной термин C

    [1 1 0]

    Термин взаимодействия AB

    [1 0 1]

    Термин взаимодействия AC

    [0 1 1]

    Термин взаимодействия BC

    [1 1 1]

    Термин взаимодействия ABC

    Например, если существует три фактора A, B и C, и 'model',[0 1 0;0 0 1;0 1 1], затем anovan тесты на основные эффекты B и C, и эффект взаимодействия BC, соответственно.

    Простой способ сгенерировать матрицу терминов - это изменить terms выход, который кодирует условия в текущей модели, используя формат, описанный выше. Если anovan возвращает [0 1 0;0 0 1;0 1 1] для termsдля примера и нет значимых BC взаимодействия, тогда можно пересчитать Дисперсионный Анализ как раз на основных эффектах B и C, указав [0 1 0;0 0 1] для model.

Пример: 'model',[0 1 0;0 0 1;0 1 1]

Пример: 'model','interaction'

Типы данных: char | string | single | double

Вложенные отношения между сгруппированными переменными, заданные как разделенная разделенными запятой парами, состоящая из 'nested' и матрица M 0 «s и 1» s, т.е. M (i, j) = 1, если i переменной вложена в переменные j.

Вы не можете задать вложенность в непрерывной переменной.

Например, если существуют две сгруппированные переменные District и School, где School вложен в District, то можно выразить эту связь следующим образом.

Пример: 'nested',[0 0;1 0]

Типы данных: single | double

Индикатор для случайных переменных, представляющий, какие сгруппированные переменные являются случайными, задается как разделенная разделенными запятой парами, состоящая из 'random' и вектор индексов. По умолчанию anovan рассматривает все сгруппированные переменные как фиксированные.

anovan рассматривает термин взаимодействия как случайный, если любая из переменных в термине взаимодействия является случайной.

Пример: 'random',[3]

Типы данных: single | double

Тип суммарных квадратов, заданный как разделенная разделенными запятой парами, состоящая из 'sstype' и следующие:

  • 1 - Тип I сумма квадратов. Уменьшение остаточной суммы квадратов, полученное путем добавления этого термина к подгонке, которая уже включает термины, перечисленные до нее.

  • 2 - Тип II сумма квадратов. Уменьшение остаточной суммы квадратов, полученное путем добавления этого термина к модели, состоящей из всех других терминов, которые не содержат этого термина.

  • 3 - III тип суммы квадратов. Уменьшение остаточной суммы квадратов, полученное путем добавления этого термина к модели, содержащей все другие условия, но с их эффектами, ограниченными для подчинения обычным «сигма-ограничениям», которые делают модели оцениваемыми.

  • 'h' - Иерархическая модель. Аналогично типу 2, но с непрерывными, а также категориальными факторами, используемыми для определения иерархии терминов.

Сумма квадратов для любого члена определяется путем сравнения двух моделей. Для модели, содержащей основные эффекты, но без взаимодействий, значение sstype влияет на расчеты только на несбалансированные данные.

Предположим, что вы подбираете модель с двумя факторами и их взаимодействием, и условия появляются в A порядка точности, B, AB. Пусть R (·) представляет остаточную сумму квадратов для модели. Итак, R (A, B, AB) - остаточная сумма квадратов, подгоняющая целую модель, R (A) - остаточная сумма квадратов, подгоняющая основной эффект только A, а R (1) - остаточная сумма квадратов, подгоняющая только среднее. Три типа квадратов :

ТерминТип 1 Сумма квадратовТип 2 Сумма квадратовТип 3 Сумма квадратов

A

R (1) – R (<reservedrangesplaceholder0>)

R (<reservedrangesplaceholder3>) – R (A, B)

R (B, AB) – R (A, B, AB)

B

R (<reservedrangesplaceholder3>) – R (A, B)

R (<reservedrangesplaceholder3>) – R (A, B)

R (A, AB) – R (A, B, AB)

AB

R (A, B) – R (A, B, AB)

R (A, B) – R (A, B, AB)

R (A, B) – R (A, B, AB)

Модели для суммы квадратов типа 3 имеют введенные сигма-ограничения. Это означает, для примера, что в подбор кривой R (B, AB) массив AB эффектов ограничивается суммой, чтобы 0 больше A для каждого значения B и больше B для каждого значения A.

Пример: 'sstype','h'

Типы данных: single | double | char | string

Имена сгруппированных переменных, заданные как разделяющая запятые пара, состоящая из 'varnames' и матрицу символа, строковые массивы или массив ячеек векторов символов.

Пример: 'varnames',{'Gender','City'}

Типы данных: char | string | cell

Выходные аргументы

свернуть все

p -значения, возвращается как вектор.

Выходные векторные p содержит p -значения для нулевых гипотез об N основных эффектах и любых заданных терминах взаимодействия. Элементный p(1) содержит p -value для нулевых гипотез, что выборки на всех уровнях факторных A взяты из одного и того же населения; элемент p(2) содержит p -value для нулевых гипотез, что выборки на всех уровнях факторных B взяты из одного и того же населения; и так далее.

Например, если существует три фактора A, B и C, и 'model',[0 1 0;0 0 1;0 1 1], затем вектор выхода p содержит p -значения для нулевых гипотез об основных эффектах B и C и BC взаимодействия, соответственно.

Достаточно маленькое значение p, соответствующее фактору, предполагает, что, по меньшей мере, одно среднее значение группы значительно отличается от другого средства группы; то есть существует основной эффект из-за этого фактора. Обычно объявлять результат значимым, если значение p меньше 0,05 или 0,01.

Дисперсионный Анализ, возвращенная как массив ячеек. Таблица ANOVA имеет семь столбцов:

Имя столбцаОпределение
sourceИсточник изменчивости.
SSСумма квадратов по каждому источнику.
dfСтепени свободы, связанные с каждым источником.
MSСредние квадраты для каждого источника, что является отношением SS/df.
Singular?Индикация того, является ли термин сингулярным.
FF -статистический, который является отношением средних квадратов.
Prob>Fp -values, которая является вероятностью того, что F -statistic может взять значение, больше вычисленного тестово-статистического значения. anovan выводит эти вероятности из cdf F -распределения.

Таблица ANOVA также содержит следующие столбцы, если хотя бы одна из сгруппированных переменных задана как случайная с помощью аргумента пары "имя-значение" random:

Имя столбцаОпределение
TypeТип каждого источника; 'fixed' для фиксированного эффекта или 'random' для случайного эффекта.
Expected MSТекстовое представление ожидаемого значения для среднего квадрата. Q(source) представляет квадратичную функцию source и V(source) представляет отклонение source.
MS denomЗнаменатель F-статика.
d.f. denomСтепени свободы для знаменателя F - статистическая величина.
Denom. defn.Представление текста знаменателя F -statistic. MS(source) представляет собой средний квадрат source.
Var. est.Оценка компонента отклонения.
Var. lower bndНижняя граница 95% доверительного интервала для оценки компонента отклонения.
Var. upper bndВерхняя граница интервала 95% доверия для оценки отклонения компонента.

Статистика для использования в многократном сравнительном тесте с использованием multcompare function, возвращается как структура.

anovan оценивает гипотезу о том, что различные группы (уровни) фактора (или, в более общем смысле, термина) имеют одинаковый эффект против альтернативы, что они не все имеют одинаковый эффект. Иногда лучше выполнить тест, чтобы определить, какие пары уровней значительно отличаются, а какие нет. Используйте multcompare функция для выполнения таких тестов путем подачи stats структура как вход.

The stats структура содержит поля, перечисленные ниже, в дополнение к ряду других полей, необходимых для проведения нескольких сравнений с помощью multcompare функция:

ОбластьОписание

coeffs

Оценочные коэффициенты

coeffnames

Имя термина для каждого коэффициента

vars

Матрица сгруппированной переменной значений для каждого члена

resid

Невязки от подобранной модели

The stats структура также содержит следующие поля, если, по крайней мере, одна из сгруппированных переменных задана как случайная с помощью аргумента пары "имя-значение" random:

ОбластьОписание

ems

Ожидаемые средние квадраты

denom

Определение знаменателя

rtnames

Имена случайных членов

varest

Отклонение оценки компонентов (по одному на случайный член)

varci

Доверительные интервалы для компонентов отклонения

Основной и условия взаимодействия, возвращенные как матрица. Условия закодированы в выходной матрице terms использование того же формата, который описан выше для входных model. Когда вы задаете model сама в этом формате матрица вернулась в terms идентичен.

Ссылки

[1] Данн, О. Дж., и В. А. Кларк. Прикладная статистика: анализ Отклонения и регрессия. Нью-Йорк: Уайли, 1974.

[2] Спокойной ночи, J.H. и F.M. Speed. Вычисление ожидаемых средних квадратов. Кэри, NC: SAS Institute, 1978.

[3] Себер, Г. А. Ф. и А. Дж. Ли. Линейный регрессионный анализ. 2nd ed. Hoboken, NJ: Wiley-Interscience, 2003.

Представлено до R2006a