anovan

N-путем дисперсионный анализ

Синтаксис

p = anovan(y,group)
p = anovan(y,group,Name,Value)
[p,tbl] = anovan(___)
[p,tbl,stats] = anovan(___)
[p,tbl,stats,terms] = anovan(___)

Описание

пример

p = anovan(y,group) возвращает вектор p-значений, один на термин, для многоканального (n - путь) дисперсионный анализ (АНОВА) для тестирования эффектов нескольких факторов на среднем значении векторного y.

anovan также отображает фигуру, показывающую стандарт таблица АНОВОЙ.

пример

p = anovan(y,group,Name,Value) возвращает вектор p-значений для многоканального (n - путь) АНОВА, использующая дополнительные опции, заданные одним или несколькими аргументами пары Name,Value.

Например, можно задать, который переменная прогноза непрерывна, если таковые имеются, или тип суммы квадратов, чтобы использовать.

[p,tbl] = anovan(___) возвращает таблицу АНОВОЙ (включая факторные метки) в массиве ячеек tbl для любого из входных параметров, заданных в предыдущих синтаксисах. Скопируйте текстовую версию таблицы АНОВОЙ к буферу обмена при помощи элемента Copy Text в меню Edit.

пример

[p,tbl,stats] = anovan(___) возвращает структуру stats, которую можно использовать, чтобы выполнить тест сравнения кратного, который позволяет вам определить, какие пары средних значений группы существенно отличаются. Можно выполнить такой тест с помощью функции multcompare путем обеспечения структуры stats, как введено.

[p,tbl,stats,terms] = anovan(___) возвращает основные и периоды взаимодействия, используемые в вычислениях АНОВОЙ в terms.

Примеры

свернуть все

Загрузите выборочные данные.

y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]';
g1 = [1 2 1 2 1 2 1 2]; 
g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'}; 
g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};

y является вектором отклика и g1, g2, и g3 является группирующими переменными (факторы). Каждый фактор имеет два уровня, и каждое наблюдение в y идентифицировано комбинацией факторных уровней. Например, наблюдение y(1) сопоставлено с уровнем 1 факторного g1, уровень 'hi' факторного g2 и уровень 'may' факторного g3. Точно так же наблюдение y(6) сопоставлено с уровнем 2 факторного g1, уровень 'hi' факторного g2 и уровень 'june' факторного g3.

Протестируйте, если ответ является тем же самым для всех факторных уровней.

p = anovan(y,{g1,g2,g3})

p = 3×1

    0.4174
    0.0028
    0.9140

В таблице АНОВОЙ X1, X2 и X3 соответствуют факторам g1, g2 и g3, соответственно. P-значение 0.4174 указывает, что средние ответы для уровней 1 и 2 факторного g1 не существенно отличаются. Точно так же p-значение 0.914 указывает, что средние ответы для уровней 'may' и 'june', факторного g3 не существенно отличаются. Однако p-значение 0.0028 является достаточно маленьким, чтобы прийти к заключению, что средние ответы существенно отличаются для этих двух уровней, 'hi' и 'lo' факторного g2. По умолчанию anovan вычисляет p-значения только для трех основных эффектов.

Протестируйте 2D факторные взаимодействия. На этот раз задайте имена переменных.

p = anovan(y,{g1 g2 g3},'model','interaction','varnames',{'g1','g2','g3'})

p = 6×1

    0.0347
    0.0048
    0.2578
    0.0158
    0.1444
    0.5000

Периоды взаимодействия представлены g1*g2, g1*g3 и g2*g3 в таблице АНОВОЙ. Первые три записи p являются p-значениями для основных эффектов. Последние три записи являются p-значениями для двухсторонних взаимодействий. P-значение 0,0158 указывает, что взаимодействие между g1 и g2 является значительным. P-значения 0,1444 и 0.5 указывают, что соответствующие взаимодействия не являются значительными.

Загрузите выборочные данные.

load carbig

Данные имеют измерения на 406 автомобилях. Переменная org показывает, где автомобили были сделаны, и when показывает, когда в году автомобили были произведены.

Учитесь, как пробег зависит от того, когда и где автомобили были сделаны. Также включайте двухсторонние взаимодействия в модель.

p = anovan(MPG,{org when},'model',2,'varnames',{'origin','mfg date'})

p = 3×1

    0.0000
    0.0000
    0.3059

Аргумент пары "имя-значение" 'model',2 представляет двухсторонние взаимодействия. P-значение в течение периода взаимодействия, 0.3059, не является маленьким, указывая на небольшое доказательство, что эффект времени изготовления (mfg date) зависит от того, где автомобиль был сделан (origin). Основные эффекты источника и производственной даты, однако, являются значительными, оба p-значения 0.

Загрузите выборочные данные.

y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]';
g1 = [1 2 1 2 1 2 1 2];
g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'};
g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};

y является вектором отклика и g1, g2, и g3 является группирующими переменными (факторы). Каждый фактор имеет два уровня, и каждое наблюдение в y идентифицировано комбинацией факторных уровней. Например, наблюдение y(1) сопоставлено с уровнем 1 факторного g1, уровень 'hi' факторного g2 и уровень 'may' факторного g3. Точно так же наблюдение y(6) сопоставлено с уровнем 2 факторного g1, уровень 'hi' факторного g2 и уровень 'june' факторного g3.

Протестируйте, если ответ является тем же самым для всех факторных уровней. Также вычислите статистику, требуемую для нескольких тестов сравнения.

[~,~,stats] = anovan(y,{g1 g2 g3},'model','interaction',...
    'varnames',{'g1','g2','g3'});

P-значение 0,2578 указывает, что средние ответы для уровней 'may' и 'june' факторного g3 не существенно отличаются. P-значение 0,0347 указывает, что средние ответы для уровней 1 и 2 факторного g1 существенно отличаются. Точно так же p-значение 0,0048 указывает, что средние ответы для уровней 'hi' и 'lo' факторного g2 существенно отличаются.

Выполните несколько тестов сравнения, чтобы узнать, какие группы факторов g1 и g2 существенно отличаются.

results = multcompare(stats,'Dimension',[1 2])

results = 6×6

    1.0000    2.0000   -6.8604   -4.4000   -1.9396    0.0280
    1.0000    3.0000    4.4896    6.9500    9.4104    0.0177
    1.0000    4.0000    6.1396    8.6000   11.0604    0.0143
    2.0000    3.0000    8.8896   11.3500   13.8104    0.0108
    2.0000    4.0000   10.5396   13.0000   15.4604    0.0095
    3.0000    4.0000   -0.8104    1.6500    4.1104    0.0745

multcompare сравнивает комбинации групп (уровни) этих двух группирующих переменных, g1 и g2. В матрице results номер 1 соответствует комбинации уровня 1 g1 и уровня hi g2, номер 2 соответствует комбинации уровня 2 g1 и уровня hi g2. Точно так же номер 3 соответствует комбинации уровня 1 g1 и уровня lo g2, и номер 4 соответствует комбинации уровня 2 g1 и уровня lo g2. Последний столбец матрицы содержит p-значения.

Например, первая строка матрицы показывает, что комбинация уровня 1 g1 и уровня hi g2 имеет те же средние значения ответа как комбинация уровня 2 g1 и уровня hi g2. P-значение, соответствующее этому тесту, 0.0280, который указывает, что средние ответы существенно отличаются. Можно также видеть этот результат в фигуре. Синяя панель показывает интервал сравнения для среднего ответа для комбинации уровня 1 g1 и уровня hi g2. Красные панели являются интервалами сравнения для среднего ответа для других комбинаций группы. Ни одна из красных панелей не накладывается с синей панелью, что означает средний ответ для комбинации уровня 1 g1 и уровня, hi g2 существенно отличается от среднего ответа для других комбинаций группы.

Можно протестировать другие группы путем нажатия на соответствующий интервал сравнения для группы. Панель вы нажимаете на повороты к синему. Панели для групп, которые существенно отличаются, являются красными. Панели для групп, которые не существенно отличаются, являются серыми. Например, если вы нажимаете на интервал сравнения для комбинации уровня 1 g1 и уровня lo g2, интервала сравнения для комбинации уровня 2 g1 и уровня lo перекрытий g2, и является поэтому серым. С другой стороны другие интервалы сравнения являются красными, указывая на значительную разницу.

Входные параметры

свернуть все

Выборочные данные, заданные как числовой вектор.

Типы данных: single | double

Группирующие переменные, т.е. факторы и факторные уровни наблюдений в y, заданном как массив ячеек. Каждая из ячеек в group содержит список факторных уровней, идентифицирующих наблюдения в y относительно одного из факторов. Список в каждой ячейке может быть категориальным массивом, числовым вектором, символьной матрицей, массивом строк или массивом ячеек из символьных векторов отдельного столбца, и должен иметь то же число элементов как y.

y=[y1,y2,y3,y4,y5,,yN]g1={'A','A','C','B','B',,'D'}g2=[12131,2]g3={'привет','\mid','низко','\mid','привет',,'низко'}

По умолчанию anovan обрабатывает все группирующие переменные как зафиксированные эффекты.

Например, в исследовании вы хотите исследовать эффекты пола, школы и образовательного метода на успеваемости студентов начальной школы, затем можно задать группирующие переменные можно следующим образом.

Пример: {'Gender','School','Method'}

Типы данных: cell

Аргументы в виде пар имя-значение

Укажите необязательные аргументы в виде пар ""имя, значение"", разделенных запятыми. Имя (Name) — это имя аргумента, а значение (Value) — соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'alpha',0.01,'model','interaction','sstype',2 задает anovan, чтобы вычислить 99% доверительных границ и p-значений для основных эффектов и двухсторонних взаимодействий с помощью суммы квадратов типа II.

Уровень значения для доверительных границ, заданных как пара, разделенная запятой, состоящая of'alpha' и скалярное значение в области значений от 0 до 1. Для значения α, доверительный уровень равняется 100* (1–α) %.

Пример: 'alpha',0.01 соответствует 99% доверительных интервалов

Типы данных: single | double

Индикатор для непрерывных предикторов, представляя, какие группирующие переменные должны быть обработаны как непрерывные предикторы, а не как категориальные предикторы, задал как пара, разделенная запятой, состоящая из 'continuous' и вектор индексов.

Например, если существует три группирующие переменные, и второй непрерывен, то можно задать можно следующим образом.

Пример: 'continuous',[2]

Типы данных: single | double

Индикатор, чтобы отобразить таблицу АНОВОЙ, заданную как пара, разделенная запятой, состоящая из 'display' и 'on' или 'off'. Когда displayopt является 'off', anovan только возвращает выходные аргументы и не отображает стандарт таблица АНОВОЙ как фигура.

Пример: 'display','off'

Тип модели, заданной как пара, разделенная запятой, состоящая из 'model' и одно из следующего:

  • 'linear' — модель 'linear' по умолчанию вычисляет только p - значения для нулевых гипотез на N основные эффекты.

  • Модель 'interaction' — The 'interaction' вычисляет p - значения для нулевых гипотез на N основные эффекты и (N2) 2D факторные взаимодействия.

  • Модель 'full' — The 'full' вычисляет p - значения для нулевых гипотез на N основные эффекты и взаимодействия на всех уровнях.

  • Целое число — Для целочисленного значения k, (kN) для типа модели, anovan вычисляет все уровни взаимодействия через k th уровень. Например, значение 3 средних значения основные эффекты плюс 2D и взаимодействия с тремя факторами. Значения k = 1 и k = 2 эквивалентны 'linear' и спецификациям 'interaction', соответственно. Значение k = N эквивалентно спецификации 'full'.

  • Матрица условий — матрица определений слова, имеющих ту же форму как вход к функции x2fx. Всеми записями должен быть 0 или 1 (никакие более высокие степени).

    Для более точного управления за основные и периоды взаимодействия, которые вычисляет anovan, можно задать матрицу, содержащую одну строку в течение каждого основного или периода взаимодействия, чтобы включать в модель АНОВОЙ. Каждая строка задает один термин с помощью вектора нулей N и единиц. Приведенная ниже таблица иллюстрирует кодирование для АНОВОЙ с 3 факторами для факторов A, B и C.

    Строка матрицыТермин АНОВОЙ

    [1 0 0]

    Основной термин A

    [0 1 0]

    Основной термин B

    [0 0 1]

    Основной термин C

    [1 1 0]

    Период взаимодействия AB

    [1 0 1]

    Период взаимодействия AC

    [0 1 1]

    Период взаимодействия BC

    [1 1 1]

    Период взаимодействия ABC

    Например, если существует три фактора A, B, и C и 'model',[0 1 0;0 0 1;0 1 1], то тесты anovan для основных эффектов B и C и эффект взаимодействия BC, соответственно.

    Простой способ сгенерировать матрицу условий состоит в том, чтобы изменить terms вывод, который кодирует условия в текущей модели с помощью формата, описанного выше. Если anovan возвращает [0 1 0;0 0 1;0 1 1] для terms, например, и нет никакого значительного взаимодействия BC, то можно повторно вычислить АНОВУ на только основных эффектах B и C путем определения [0 1 0;0 0 1] для model.

Пример: 'model',[0 1 0;0 0 1;0 1 1]

Пример: 'model','interaction'

Типы данных: char | string | single | double

Вложенные отношения среди группирующих переменных, заданных как пара, разделенная запятой, состоящая из 'nested' и матричный M 0 и 1’s, т.е. M (i, j) = 1, если переменная i вкладывается в переменной j.

Вы не можете задать вложение в непрерывной переменной.

Например, если существует две группирующие переменные District и School, где Школа вкладывается в Районе, затем можно выразить это отношение можно следующим образом.

Пример: 'nested',[0 0;1 0]

Типы данных: single | double

Индикатор для случайных переменных, представляя, какие группирующие переменные случайны, заданы как пара, разделенная запятой, состоящая из 'random' и вектор индексов. По умолчанию anovan обрабатывает все группирующие переменные, как зафиксировано.

anovan обрабатывает период взаимодействия как случайный, если какая-либо из переменных в период взаимодействия случайна.

Пример: 'random',[3]

Типы данных: single | double

Тип квадратов суммы, заданных как пара, разделенная запятой, состоящая из 'sstype' и следующего:

  • 1 — сумма квадратов Типа I. Сокращение остаточной суммы квадратов получило путем добавления, что термин к подгонке, которая уже включает условия, перечисленные перед ним.

  • 2 — сумма квадратов Типа II. Сокращение остаточной суммы квадратов получило путем добавления, что термин к модели, состоящей из всех других условий, которые не содержат рассматриваемый термин.

  • 3 — сумма квадратов Типа III. Сокращение остаточной суммы квадратов получило путем добавления, что термин к модели, содержащей все другие условия, но с их эффектами, ограниченными повиноваться обычным “ограничениям сигмы”, которые делают модели допускающими оценку.

  • Модель 'h' — Hierarchical. Подобно типу 2, но с непрерывными, а также категориальными факторами, используемыми, чтобы определить иерархию условий.

Сумма квадратов для любого термина определяется путем сравнения двух моделей. Для модели, содержащей основные эффекты, но никакие взаимодействия, значение sstype влияет на вычисления на несбалансированных данных только.

Предположим, что вы подбираете модель с двумя факторами и их взаимодействием, и условия появляются в порядке A, B, AB. Позвольте R (·) представляйте остаточную сумму квадратов для модели. Так, R (A, B, AB) является остаточной суммой квадратов, соответствующей целой модели, R (A) является остаточной суммой квадратов, соответствующей основному эффекту A только, и R (1) является остаточной суммой квадратов, соответствующей среднему значению только. Три типа суммы квадратов следующие:

ТерминТип 1 Сумма квадратовТип 2 Сумма квадратовТип 3 Сумма квадратов

A

R (1) – R (A)

R (B) – R (A, B)

R (B, AB) – R (A, B, AB)

B

R (A) – R (A, B)

R (A) – R (A, B)

R (A, AB) – R (A, B, AB)

AB

R (A, B) – R (A, B, AB)

R (A, B) – R (A, B, AB)

R (A, B) – R (A, B, AB)

Моделям для суммы квадратов Типа 3 наложили ограничения сигмы. Это означает, например, что в подборе кривой R (B, AB), массив эффектов AB ограничивается суммировать к 0 по A для каждого значения B, и по B для каждого значения A.

Пример: 'sstype','h'

Типы данных: single | double | char | string

Имена группирующих переменных, заданных как разделяющая запятую пара, состоящая из 'varnames' и символьной матрицы, массива строк или массива ячеек из символьных векторов.

Пример: 'varnames',{'Gender','City'}

Типы данных: char | string | cell

Выходные аргументы

свернуть все

p-, возвращенные как вектор.

Выходной вектор p содержит p - значения для нулевых гипотез на N основные эффекты и любые заданные периоды взаимодействия. p(1) элемента содержит p - значение для нулевых гипотез, что выборки на всех уровнях факторного A чертятся от той же генеральной совокупности; p(2) элемента содержит p - значение для нулевых гипотез, что выборки на всех уровнях факторного B чертятся от той же генеральной совокупности; и так далее.

Например, если существует три фактора A, B, и C и 'model',[0 1 0;0 0 1;0 1 1], то выходной вектор p содержит p - значения для нулевых гипотез на основных эффектах B и C и эффект взаимодействия BC, соответственно.

Достаточно маленький p - значение, соответствующее фактору, предполагает, что по крайней мере одно среднее значение группы существенно отличается от других средних значений группы; то есть, существует основной эффект из-за того фактора. Распространено объявить результат, значительный, если p - значение - меньше чем 0,05 или 0.01.

Таблица АНОВОЙ, возвращенная как массив ячеек. Таблица АНОВОЙ имеет семь столбцов:

ColumnName Определение
sourceИсточник изменчивости.
SSСумма квадратов из-за каждого источника.
dfСтепени свободы сопоставлены с каждым источником.
MSСредние квадратичные для каждого источника, который является отношением SS/df.
Singular?Индикация относительно того, сингулярен ли термин.
FF-, которая является отношением средних квадратичных.
Prob>Fp - значения, который является вероятностью, что F - статистическая величина может принять значение, больше, чем вычисленное статистическое тестом значение. anovan выводит эти вероятности от cdf F - распределение.

Таблица АНОВОЙ также содержит следующие столбцы, если по крайней мере одна из группирующих переменных задана как случайное использование аргумента пары "имя-значение" random:

ColumnName Определение
TypeТип каждого источника; 'fixed' для фиксированного эффекта или 'random' для случайного эффекта.
Expected MSТекстовое представление ожидаемого значения для среднего квадратичного. Q(source) представляет квадратичную функцию source, и V(source) представляет отклонение source.
MS denomЗнаменатель F - статистическая величина.
d.f. denomСтепени свободы для знаменателя F - статистическая величина.
Denom. defn.Текстовое представление знаменателя F - статистическая величина. MS(source) представляет среднее квадратичное source.
Var. est.Оценка компонента отклонения.
Var. lower bndНижняя граница 95%-го доверительного интервала для оценки компонента отклонения.
Var. upper bndВерхняя граница 95%-го доверительного интервала для оценки компонента отклонения.

Статистика, чтобы использовать в тесте сравнения кратного с помощью функции multcompare, возвратилась как структура.

anovan оценивает гипотезу, что различные группы (уровни) фактора (или в более общем плане, термин) имеют тот же эффект против альтернативы, что они все не имеют того же эффекта. Иногда желательно выполнять тест, чтобы определить, какие пары уровней существенно отличаются, и которые не являются. Используйте функцию multcompare, чтобы выполнить такие тесты путем предоставления структуры stats, как введено.

Структура stats содержит описанные ниже поля, в дополнение ко многим другим полям, требуемым для того, чтобы сделать несколько сравнений с помощью функции multcompare:

Поле Описание

coeffs

Предполагаемые коэффициенты

coeffnames

Имя термина для каждого коэффициента

vars

Матрица значений группирующей переменной для каждого термина

resid

Невязки от подобранной модели

Структура stats также содержит следующие поля, если по крайней мере одна из группирующих переменных задана как случайное использование аргумента пары "имя-значение" random:

Поле Описание

ems

Ожидаемые средние квадратичные

denom

Определение знаменателя

rtnames

Имена случайных условий

varest

Оценки компонента отклонения (один на случайный термин)

varci

Доверительные интервалы для компонентов отклонения

Основные и периоды взаимодействия, возвращенные как матрица. Условия закодированы в выходной матрице terms с помощью того же формата, описанного выше для входа model. Когда вы задаете сам model в этом формате, матрица, возвращенная в terms, идентична.

Ссылки

[1] Данн, O.J., и В.А. Кларк. Прикладная статистика: дисперсионный анализ и регрессия. Нью-Йорк: Вайли, 1974.

[2] Доброй ночи, J.H., и F.M. Скорость. Вычисление ожидаемых средних квадратичных. Сборник решений канцлерского суда, NC: SAS Institute, 1978.

[3] Seber, G. A. F. и А. Дж. Ли. Анализ Линейной регрессии. 2-й редактор Хобокен, NJ: Wiley-межнаука, 2003.

Представлено до R2006a

Для просмотра документации необходимо авторизоваться на сайте