anovan

N-сторонний дисперсионный анализ

Описание

пример

p = anovan(y,group) возвращает вектор p-значений, один на термин, для многоканального (n - путь) дисперсионный анализ (Дисперсионный Анализ) для тестирования эффектов нескольких факторов на среднем значении векторного y.

anovan также отображает фигуру, показывающую стандартную таблицу ANOVA.

пример

p = anovan(y,group,Name,Value) возвращает вектор p-значений для многоканального (n - путь) Дисперсионный Анализ с помощью дополнительных опций, заданных одним или несколькими Name,Value парные аргументы.

Например, можно задать, который переменный предиктор непрерывен, если таковые имеются, или тип суммы квадратов, чтобы использовать.

[p,tbl] = anovan(___) возвращает таблицу ANOVA (включая факторные метки) в массиве ячеек tbl для любого из входных параметров, заданных в предыдущих синтаксисах. Скопируйте текстовую версию таблицы ANOVA к буферу обмена при помощи Copy Text элемент в меню Edit.

пример

[p,tbl,stats] = anovan(___) возвращает stats структура, которую можно использовать, чтобы выполнить тест сравнения кратного, который позволяет вам определить, какие пары средних значений группы существенно отличаются. Можно выполнить такой тест с помощью multcompare функция путем обеспечения stats структура, как введено.

[p,tbl,stats,terms] = anovan(___) возвращает основные и периоды взаимодействия, используемые в расчетах Дисперсионного Анализа в terms.

Примеры

свернуть все

Загрузите выборочные данные.

y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]';
g1 = [1 2 1 2 1 2 1 2]; 
g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'}; 
g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};

y вектор отклика и g1, g2, и g3 сгруппированные переменные (факторы). Каждый фактор имеет два уровня и каждое наблюдение в y идентифицирован комбинацией факторных уровней. Например, наблюдение y(1) сопоставлен с уровнем 1 факторного g1, уровень 'hi' из факторного g2, и уровень 'may' из факторного g3. Точно так же наблюдение y(6) сопоставлен с уровнем 2 факторного g1, уровень 'hi' из факторного g2, и уровень 'june' из факторного g3.

Протестируйте, если ответ является тем же самым для всех факторных уровней.

p = anovan(y,{g1,g2,g3})

p = 3×1

    0.4174
    0.0028
    0.9140

В таблице ANOVA, X1x2 , и X3 соответствуйте факторам g1, g2, и g3, соответственно. P-значение 0.4174 указывает что средние ответы для уровней 1 и 2 факторного g1 не существенно отличаются. Точно так же p-значение 0.914 указывает что средние ответы для уровней 'may' и 'june', из факторного g3 не существенно отличаются. Однако p-значение 0.0028 мало достаточно, чтобы прийти к заключению, что средние ответы существенно отличаются для этих двух уровней, 'hi' и 'lo' из факторного g2. По умолчанию, anovan вычисляет p-значения только для трех основных эффектов.

Протестируйте 2D факторные взаимодействия. На этот раз задайте имена переменных.

p = anovan(y,{g1 g2 g3},'model','interaction','varnames',{'g1','g2','g3'})

p = 6×1

    0.0347
    0.0048
    0.2578
    0.0158
    0.1444
    0.5000

Периоды взаимодействия представлены g1*g2, g1*g3, и g2*g3 в таблице ANOVA. Первые три записи p p-значения для основных эффектов. Последние три записи являются p-значениями для двухсторонних взаимодействий. P-значение 0,0158 указывает что взаимодействие между g1 и g2 является значительным. P-значения 0,1444 и 0.5 указывают, что соответствующие взаимодействия не являются значительными.

Загрузите выборочные данные.

load carbig

Данные имеют измерения на 406 автомобилях. Переменная org показывает, где автомобили были сделаны и when показывает, когда в году автомобили были произведены.

Учитесь, как пробег зависит от того, когда и где автомобили были сделаны. Также включайте двухсторонние взаимодействия в модель.

p = anovan(MPG,{org when},'model',2,'varnames',{'origin','mfg date'})

p = 3×1

    0.0000
    0.0000
    0.3059

'model',2 аргумент пары "имя-значение" представляет двухсторонние взаимодействия. P-значение в течение периода взаимодействия, 0.3059, не является маленьким, указывая на небольшое доказательство что эффект времени изготовления (mfg date) зависит от того, где автомобиль был сделан (origin). Основные эффекты источника и производственной даты, однако, являются значительными, оба p-значения 0.

Загрузите выборочные данные.

y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]';
g1 = [1 2 1 2 1 2 1 2];
g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'};
g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};

y вектор отклика и g1, g2, и g3 сгруппированные переменные (факторы). Каждый фактор имеет два уровня и каждое наблюдение в y идентифицирован комбинацией факторных уровней. Например, наблюдение y(1) сопоставлен с уровнем 1 факторного g1, уровень 'hi' из факторного g2, и уровень 'may' из факторного g3. Точно так же наблюдение y(6) сопоставлен с уровнем 2 факторного g1, уровень 'hi' из факторного g2, и уровень 'june' из факторного g3.

Протестируйте, если ответ является тем же самым для всех факторных уровней. Также вычислите статистику, требуемую для нескольких тестов сравнения.

[~,~,stats] = anovan(y,{g1 g2 g3},'model','interaction',...
    'varnames',{'g1','g2','g3'});

P-значение 0,2578 указывает что средние ответы для уровней 'may' и 'june' из факторного g3 не существенно отличаются. P-значение 0,0347 указывает что средние ответы для уровней 1 и 2 из факторного g1 существенно отличаются. Точно так же p-значение 0,0048 указывает что средние ответы для уровней 'hi' и 'lo' из факторного g2 существенно отличаются.

Выполните несколько тестов сравнения, чтобы узнать который группы факторов g1 и g2 существенно отличаются.

results = multcompare(stats,'Dimension',[1 2])

results = 6×6

    1.0000    2.0000   -6.8604   -4.4000   -1.9396    0.0280
    1.0000    3.0000    4.4896    6.9500    9.4104    0.0177
    1.0000    4.0000    6.1396    8.6000   11.0604    0.0143
    2.0000    3.0000    8.8896   11.3500   13.8104    0.0108
    2.0000    4.0000   10.5396   13.0000   15.4604    0.0095
    3.0000    4.0000   -0.8104    1.6500    4.1104    0.0745

multcompare сравнивает комбинации групп (уровни) этих двух сгруппированных переменных, g1 и g2. В results матрица, номер 1 соответствует комбинации уровня 1 из g1 и уровень hi из g2, номер 2 соответствует комбинации уровня 2 из g1 и уровень hi из g2. Точно так же номер 3 соответствует комбинации уровня 1 из g1 и уровень lo из g2, и номер 4 соответствует комбинации уровня 2 из g1 и уровень lo из g2. Последний столбец матрицы содержит p-значения.

Например, первая строка матрицы показывает что комбинация уровня 1 из g1 и уровень hi из g2 имеет те же средние значения ответа как комбинация уровня 2 из g1 и уровень hi из g2. P-значение, соответствующее этому тесту, 0.0280, который указывает, что средние ответы существенно отличаются. Можно также видеть этот результат в фигуре. Синяя панель показывает интервал сравнения для среднего ответа для комбинации уровня 1 из g1 и уровень hi из g2. Красные панели являются интервалами сравнения для среднего ответа для других комбинаций группы. Ни одна из красных панелей не накладывается с синей панелью, что означает средний ответ для комбинации уровня 1 из g1 и уровень hi из g2 существенно отличается от среднего ответа для других комбинаций группы.

Можно протестировать другие группы путем нажатия на соответствующий интервал сравнения для группы. Панель вы нажимаете на повороты к синему. Панели для групп, которые существенно отличаются, являются красными. Панели для групп, которые не существенно отличаются, являются серыми. Например, если вы нажимаете на интервал сравнения для комбинации уровня 1 из g1 и уровень lo из g2, интервал сравнения для комбинации уровня 2 из g1 и уровень lo из g2 перекрытия, и являются поэтому серыми. С другой стороны другие интервалы сравнения являются красными, указывая на значительную разницу.

Входные параметры

свернуть все

Выборочные данные, заданные как числовой вектор.

Типы данных: single | double

Сгруппированные переменные, т.е. факторы и факторные уровни наблюдений в y, заданный как массив ячеек. Каждая из ячеек в group содержит список факторных уровней, идентифицирующих наблюдения в y относительно одного из факторов. Список в каждой ячейке может быть категориальным массивом, числовым вектором, символьной матрицей, массивом строк или массивом ячеек из символьных векторов отдельного столбца, и должен иметь то же число элементов как y.

y=[y1,y2,y3,y4,y5,,yN]g1={'A','A','C','B','B',,'D'}g2=[12131,2]g3={'привет','\mid','низко','\mid','привет',,'низко'}

По умолчанию, anovan обработки все сгруппированные переменные как зафиксированные эффекты.

Например, в исследовании вы хотите исследовать эффекты пола, школы и образовательного метода на успеваемости студентов начальной школы, затем можно задать сгруппированные переменные можно следующим образом.

Пример: {'Gender','School','Method'}

Типы данных: cell

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'alpha',0.01,'model','interaction','sstype',2 задает anovan вычислить 99% доверительных границ и p-значений для основных эффектов и двухсторонних взаимодействий с помощью суммы квадратов типа II.

Уровень значения для доверительных границ, заданных как разделенная запятой пара, состоящая of'alpha' и скалярное значение в области значений от 0 до 1. Для значения α, доверительный уровень равняется 100* (1–α) %.

Пример: 'alpha',0.01 соответствует 99% доверительных интервалов

Типы данных: single | double

Индикатор для непрерывных предикторов, представляя, какие сгруппированные переменные должны быть обработаны как непрерывные предикторы, а не как категориальные предикторы, задал как разделенная запятой пара, состоящая из 'continuous' и вектор индексов.

Например, если существует три сгруппированные переменные, и второй непрерывен, то можно задать можно следующим образом.

Пример: 'continuous',[2]

Типы данных: single | double

Индикатор, чтобы отобразить таблицу ANOVA, заданную как разделенная запятой пара, состоящая из 'display' и 'on' или 'off'. Когда displayopt 'off', anovan только возвращает выходные аргументы и не отображает стандартную таблицу ANOVA как фигуру.

Пример: 'display','off'

Тип модели, заданной как разделенная запятой пара, состоящая из 'model' и одно из следующего:

  • 'linear''linear' по умолчанию модель вычисляет только p - значения для нулевых гипотез на N основные эффекты.

  • 'interaction''interaction' модель вычисляет p - значения для нулевых гипотез на N основные эффекты и (N2) 2D факторные взаимодействия.

  • 'full''full' модель вычисляет p - значения для нулевых гипотез на N основные эффекты и взаимодействия на всех уровнях.

  • Целое число — Для целочисленного значения k, (kN) для типа модели, anovan вычисляет все уровни взаимодействия через k th уровень. Например, значение 3 средних значения основные эффекты плюс 2D и взаимодействия с тремя факторами. Значения k = 1 и k = 2 эквивалентны 'linear' и 'interaction' спецификации, соответственно. Значение k = N эквивалентно 'full' спецификация.

  • Матрица условий — матрица A определений слова, имеющих ту же форму как вход к x2fx функция. Всеми записями должен быть 0 или 1 (никакие более высокие степени).

    Для более точного управления за основные и периоды взаимодействия, что anovan вычисляет, можно задать матрицу, содержащую одну строку в течение каждого основного или периода взаимодействия, чтобы включать в модель ANOVA. Каждая строка задает один термин с помощью вектора нулей N и единиц. Приведенная ниже таблица иллюстрирует кодирование для Дисперсионного Анализа с 3 факторами для факторов A, B и C.

    Строка матрицыТермин Дисперсионного Анализа

    [1 0 0]

    Основной термин A

    [0 1 0]

    Основной термин B

    [0 0 1]

    Основной термин C

    [1 1 0]

    Период взаимодействия AB

    [1 0 1]

    Период взаимодействия AC

    [0 1 1]

    Период взаимодействия BC

    [1 1 1]

    Период взаимодействия ABC

    Например, если существует три фактора A, B, и C и 'model',[0 1 0;0 0 1;0 1 1], затем anovan тесты для основных эффектов B и C и эффект взаимодействия BC, соответственно.

    Простой способ сгенерировать матрицу условий состоит в том, чтобы изменить terms выведите, который кодирует условия в текущей модели с помощью формата, описанного выше. Если anovan возвращает [0 1 0;0 0 1;0 1 1] для terms, например, и нет никакого значительного взаимодействия BC, затем можно повторно вычислить Дисперсионный Анализ на только основных эффектах B и C путем определения [0 1 0;0 0 1] для model.

Пример: 'model',[0 1 0;0 0 1;0 1 1]

Пример: 'model','interaction'

Типы данных: char | string | single | double

Вложенные отношения среди сгруппированных переменных, заданных как разделенная запятой пара, состоящая из 'nested' и матричный M 0 и 1’s, т.е. M (i, j) = 1, если переменная i вкладывается в переменной j.

Вы не можете задать вложение в непрерывной переменной.

Например, если существует две сгруппированные переменные District и School, где Школа вкладывается в Районе, затем можно выразить это отношение можно следующим образом.

Пример: 'nested',[0 0;1 0]

Типы данных: single | double

Индикатор для случайных переменных, представляя, какие сгруппированные переменные случайны, заданы как разделенная запятой пара, состоящая из 'random' и вектор индексов. По умолчанию, anovan обработки все сгруппированные переменные, как зафиксировано.

anovan обрабатывает период взаимодействия как случайный, если какая-либо из переменных в период взаимодействия случайна.

Пример: 'random',[3]

Типы данных: single | double

Тип квадратов суммы, заданных как разделенная запятой пара, состоящая из 'sstype' и следующее:

  • 1 — сумма квадратов Типа I. Сокращение остаточной суммы квадратов получило путем добавления, что термин к подгонке, которая уже включает условия, перечисленные перед ним.

  • 2 — сумма квадратов Типа II. Сокращение остаточной суммы квадратов получило путем добавления, что термин к модели, состоящей из всех других условий, которые не содержат рассматриваемый термин.

  • 3 — сумма квадратов Типа III. Сокращение остаточной суммы квадратов получило путем добавления, что термин к модели, содержащей все другие условия, но с их эффектами, ограниченными повиноваться обычным “ограничениям сигмы”, которые делают модели допускающими оценку.

  • 'h' — Иерархическая модель. Подобно типу 2, но с непрерывными, а также категориальными факторами, используемыми, чтобы определить иерархию условий.

Сумма квадратов для любого термина определяется путем сравнения двух моделей. Для модели, содержащей основные эффекты, но никакие взаимодействия, значение sstype влияет на расчеты на несбалансированных данных только.

Предположим, что вы подбираете модель с двумя факторами и их взаимодействием, и условия появляются в порядке A, B, AB. Позвольте R (·) представляйте остаточную сумму квадратов для модели. Так, R (A, B, AB) является остаточной суммой квадратов, подбирающей целую модель, R (A) является остаточной суммой квадратов, соответствующей основному эффекту A только, и R (1) является остаточной суммой квадратов, соответствующей среднему значению только. Три типа суммы квадратов следующие:

ТерминТип 1 Сумма квадратовТип 2 Сумма квадратовТип 3 Сумма квадратов

A

R (1) – R (A)

R (B) – R (A, B)

R (B, AB) – R (A, B, AB)

B

R (A) – R (A, B)

R (A) – R (A, B)

R (A, AB) – R (A, B, AB)

AB

R (A, B) – R (A, B, AB)

R (A, B) – R (A, B, AB)

R (A, B) – R (A, B, AB)

Моделям для суммы квадратов Типа 3 наложили ограничения сигмы. Это означает, например, что в подборе кривой R (B, AB), массив эффектов AB ограничивается суммировать к 0 по A для каждого значения B, и по B для каждого значения A.

Пример: 'sstype','h'

Типы данных: single | double | char | string

Имена сгруппированных переменных, заданных как разделяющая запятую пара, состоящая из 'varnames' и символьная матрица, массив строк или массив ячеек из символьных векторов.

Пример: 'varnames',{'Gender','City'}

Типы данных: char | string | cell

Выходные аргументы

свернуть все

p-, возвращенные как вектор.

Выходной вектор p содержит p - значения для нулевых гипотез на N основные эффекты и любые заданные периоды взаимодействия. Элемент p(1) содержит p - значение для нулевых гипотез, что выборки на всех уровнях факторного A чертятся от того же населения; элемент p(2) содержит p - значение для нулевых гипотез, что выборки на всех уровнях факторного B чертятся от того же населения; и так далее.

Например, если существует три фактора A, B, и C и 'model',[0 1 0;0 0 1;0 1 1], затем выходной вектор p содержит p - значения для нулевых гипотез на основных эффектах B и C и эффект взаимодействия BC, соответственно.

Достаточно маленький p - значение, соответствующее фактору, предполагает, что по крайней мере одно среднее значение группы существенно отличается от других средних значений группы; то есть, существует основной эффект из-за того фактора. Распространено объявить результат, значительный, если p - значение меньше 0.05 или 0.01.

Таблица ANOVA, возвращенная как массив ячеек. Таблица ANOVA имеет семь столбцов:

ColumnName Определение
sourceИсточник изменчивости.
SSСумма квадратов из-за каждого источника.
dfСтепени свободы сопоставлены с каждым источником.
MSСредние квадратичные для каждого источника, который является отношением SS/df.
Singular?Индикация относительно того, сингулярен ли термин.
FF-, которая является отношением средних квадратичных.
Prob>Fp - значения, который является вероятностью, что F - статистическая величина может принять значение, больше, чем вычисленное статистическое тестом значение. anovan выводит эти вероятности из cdf F - распределение.

Таблица ANOVA также содержит следующие столбцы, если по крайней мере одна из сгруппированных переменных задана как случайное использование аргумента пары "имя-значение" random:

ColumnName Определение
TypeТип каждого источника; 'fixed' для фиксированного эффекта или 'random' для случайного эффекта.
Expected MSТекстовое представление ожидаемого значения для среднего квадратичного. Q(source) представляет квадратичную функцию source и V(source) представляет отклонение source.
MS denomЗнаменатель F - статистическая величина.
d.f. denomСтепени свободы для знаменателя F - статистическая величина.
Denom. defn.Текстовое представление знаменателя F - статистическая величина. MS(source) представляет среднее квадратичное source.
Var. est.Оценка компонента отклонения.
Var. lower bndНижняя граница 95%-го доверительного интервала для оценки компонента отклонения.
Var. upper bndВерхняя граница 95%-го доверительного интервала для оценки компонента отклонения.

Статистика, чтобы использовать в тесте сравнения кратного с помощью multcompare функция, возвращенная как структура.

anovan оценивает гипотезу, что различные группы (уровни) фактора (или в более общем плане, термин) оказывают то же влияние против альтернативы, что они все не оказывают то же влияние. Иногда желательно выполнять тест, чтобы определить, какие пары уровней существенно отличаются, и которые не являются. Используйте multcompare функция, чтобы выполнить такие тесты путем предоставления stats структура, как введено.

stats структура содержит описанные ниже поля, в дополнение ко многим другим полям, требуемым для того, чтобы сделать несколько сравнений с помощью multcompare функция:

Поле Описание

coeffs

Предполагаемые коэффициенты

coeffnames

Имя термина для каждого коэффициента

vars

Матрица значений сгруппированной переменной для каждого термина

resid

Остаточные значения подобранной модели

stats структура также содержит следующие поля, если по крайней мере одна из сгруппированных переменных задана как случайное использование аргумента пары "имя-значение" random:

Поле Описание

ems

Ожидаемые средние квадратичные

denom

Определение знаменателя

rtnames

Имена случайных условий

varest

Оценки компонента отклонения (один на случайный термин)

varci

Доверительные интервалы для компонентов отклонения

Основные и периоды взаимодействия, возвращенные как матрица. Условия закодированы в выходной матрице terms использование того же формата, описанного выше для входа model. Когда вы задаете model самостоятельно в этом формате, матрица, возвращенная в terms идентично.

Ссылки

[1] Данн, O.J., и В.А. Кларк. Прикладная статистика: дисперсионный анализ и регрессия. Нью-Йорк: Вайли, 1974.

[2] Доброй ночи, J.H., и F.M. Скорость. Вычисление ожидаемых средних квадратичных. Сборник решений канцлерского суда, NC: SAS Institute, 1978.

[3] Seber, G. A. F. и А. Дж. Ли. Анализ Линейной регрессии. 2-й редактор Хобокен, NJ: Wiley-межнаука, 2003.

Представлено до R2006a