Протестируйте различия между средними значениями категории

То В этом примере показано, как протестировать на существенные различия между категорией (группа), означает использовать t - тест, двухсторонний Дисперсионный Анализ (дисперсионный анализ) и АНОКОВА (ковариационный анализ) анализ.

Цель определяет, зависят ли ожидаемые мили на галлон для автомобиля от десятилетия, в которое это было произведено, или местоположение, где это было произведено.

Примечание

nominal и ordinal типы данных массива не рекомендуются. Чтобы представлять упорядоченный и неупорядоченные дискретные, нечисловые данные, используйте тип данных Категориальных массивов вместо этого.

Загрузка демонстрационных данных.
Создайте фактор в течение десятилетия изготовления.
Отобразите на графике данные, сгруппированные по категориям.
Вычислите итоговую статистику.
Проведите 2D демонстрационный t-тест для равных средних значений группы.
Создайте фактор для местоположения изготовления.
Объедините категории.
Вычислите итоговую статистику.
Проведите двухсторонний Дисперсионный Анализ.
Проведите анализ АНОКОВОЙ.
Используйте интерактивный инструмент.

Загрузка демонстрационных данных.

load('carsmall')
unique(Model_Year)

Переменная MPG имеет мили на измерения галлона на выборке 100 автомобилей. Переменные Model_Year и Origin содержите модельный год и страну происхождения для каждого автомобиля.

Первым фактором интереса является десятилетие изготовления. В данных существует три производственных года.

Создайте фактор в течение десятилетия изготовления.

Создайте порядковый массив под названием Decade путем слияния наблюдений с лет 70 и 76 в категорию пометил 1970s, и помещение наблюдений от 82 в категорию пометил 1980s.

Decade = ordinal(Model_Year,{'1970s','1980s'},[],[70 77 82]);
getlevels(Decade)

ans = 

     1970s      1980s

Отобразите на графике данные, сгруппированные по категориям.

Чертите диаграмму миль на галлон, сгруппированный десятилетием изготовления.

figure()
boxplot(MPG,Decade)
title('Miles per Gallon, Grouped by Decade of Manufacture')

Диаграмма предполагает, что мили на галлон выше в автомобилях, произведенных в течение 1980-х по сравнению с 1970-ми.

Вычислите итоговую статистику.

Вычислите среднее значение и отклонение миль на галлон в течение каждого десятилетия.

[xbar,s2,grp] = grpstats(MPG,Decade,{'mean','var','gname'})

xbar =

   19.7857
   31.7097


s2 =

   35.1429
   29.0796


grp = 

    '1970s'
    '1980s'

Этот выход показывает, что средними милями на галлон в 1980-х был 31.71, по сравнению с 19.79 в 1970-х. Отклонения в этих двух группах подобны.

Проведите 2D демонстрационный t-тест для равных средних значений группы.

Проведите 2D демонстрационный t - тест, приняв равные отклонения, чтобы протестировать на значительную разницу между средними значениями группы. Гипотеза

$\begin{array}{l} H_{0} : μ_{70} = μ_{80} \\ H_{A} : μ_{70} \neq μ_{80} . \end{array}$

MPG70 = MPG(Decade=='1970s');
MPG80 = MPG(Decade=='1980s');
[h,p] = ttest2(MPG70,MPG80)

h =

     1


p =

   3.4809e-15

Логическое значение 1 указывает, что нулевая гипотеза отклоняется в значении по умолчанию 0,05 уровня значения. P-значение для теста очень мало. Существуют достаточные доказательства, что средние мили на галлон в 1980-х отличаются от средних миль на галлон в 1970-х.

Создайте фактор для местоположения изготовления.

Вторым фактором интереса является местоположение изготовления. Во-первых, преобразуйте Origin к номинальному массиву.

Location = nominal(Origin);
tabulate(Location)

tabulate(Location)
    Value    Count   Percent
   France        4      4.00%
  Germany        9      9.00%
    Italy        1      1.00%
    Japan       15     15.00%
   Sweden        2      2.00%
      USA       69     69.00%

Существует шесть разных стран изготовления. Европейские страны имеют относительно немного наблюдений.

Объедините категории.

Объедините категории France, Germany, Italy, и Sweden в новую категорию под названием Europe.

Location = mergelevels(Location, ...
    {'France','Germany','Italy','Sweden'},'Europe');
tabulate(Location)

   Value    Count   Percent
   Japan       15     15.00%
     USA       69     69.00%
  Europe       16     16.00%

Вычислите итоговую статистику.

Вычислите средние мили на галлон, сгруппированный местоположением изготовления.

[xbar,grp] = grpstats(MPG,Location,{'mean','gname'})

xbar =

   31.8000
   21.1328
   26.6667


grp = 

    'Japan'
    'USA'
    'Europe'

Этот результат показывает, что средние мили на галлон являются самыми низкими для выборки автомобилей, произведенных в США.

Проведите двухсторонний Дисперсионный Анализ.

Проведите двухсторонний Дисперсионный Анализ, чтобы протестировать на различия в ожидаемых милях на галлон между факторными уровнями для Decade и Location.

Статистическая модель

$M P G_{i j} = μ + α_{i} + β_{j} + ε_{i j}, i = 1, 2; j = 1, 2, 3,$

где _MPGij является ответом, милями на галлон, для автомобилей, сделанных в десятилетие i в местоположении j. Эффекты обработки для первого фактора, десятилетие изготовления, являются условиями _αi (ограниченный суммировать, чтобы обнулить). Эффекты обработки для второго фактора, местоположения изготовления, являются условиями _βj (ограниченный суммировать, чтобы обнулить). _εij является некоррелироваными, нормально распределенными шумовыми условиями.

Гипотезы, чтобы протестировать являются равенством эффектов десятилетия,

$\begin{array}{l} H_{0} : α_{1} = α_{2} = 0 \\ H_{A} : a t l e a s t o n e α_{i} \neq 0, \end{array}$

и равенство эффектов местоположения,

$\begin{array}{l} H_{0} : β_{1} = β_{2} = β_{3} = 0 \\ H_{A} : a t l e a s t o n e β_{j} \neq 0. \end{array}$

Можно провести несколько - факторный Дисперсионный Анализ с помощью anovan.

anovan(MPG,{Decade,Location},'varnames',{'Decade','Location'});

Этот выход показывает результаты двухстороннего Дисперсионного Анализа. P-значением для тестирования равенства эффектов десятилетия является 2.88503e-18, таким образом, нулевая гипотеза отклоняется на 0,05 уровнях значения. P-значением для тестирования равенства эффектов местоположения является 7.40416e-10, таким образом, эта нулевая гипотеза также отклоняется.

Проведите анализ АНОКОВОЙ.

Потенциальный нарушитель спокойствия в этом анализе является автомобильным весом. Автомобили с большим весом, как ожидают, будут иметь более низкий расход бензина. Включайте переменную Weight как непрерывный ковариант в Дисперсионном Анализе; то есть, проведите анализ АНОКОВОЙ.

Принимая параллельные линии, статистическая модель

$M P G_{i j k} = μ + α_{i} + β_{j} + γ W e i g h t_{i j k} + ε_{i j k}, i = 1, 2; j = 1, 2, 3; k = 1, ..., 100.$

Различием между этой моделью и двухсторонней моделью ANOVA является включение непрерывного предиктора, _Weightijk, веса для k th автомобиль, который был сделан в i th десятилетием и в j th местоположение. Наклонным параметром является γ.

Добавьте непрерывный ковариант как третью группу во втором anovan входной параметр. Используйте аргумент пары "имя-значение" Continuous задавать тот Weight (третья группа), непрерывно.

anovan(MPG,{Decade,Location,Weight},'Continuous',3,...
       'varnames',{'Decade','Location','Weight'});

Этот выход показывает, что, когда автомобильный вес рассматривается, существуют недостаточные доказательства производственного эффекта местоположения (p-значение = 0.1044).

Используйте интерактивный инструмент.

Можно использовать интерактивный aoctool исследовать этот результат.

aoctool(Weight,MPG,Location);

Эта команда открывает три диалоговых окна. В диалоговом окне Prediction Plot АНОКОВОЙ выберите модель Separate Means.

Этот выход показывает это, когда вы не включаете Weight в модели существуют довольно значительные различия в ожидаемых милях на галлон среди трех производственных мест. Обратите внимание на то, что здесь модель не настраивает в течение десятилетия производства.

Теперь выберите модель Parallel Lines.

Когда вы включаете Weight в модели различие в ожидаемых милях на галлон среди трех производственных мест намного меньше.

Документация