Протестируйте различия между средствами категории

Этот пример показывает, как протестировать на существенные различия между категорией средние значения (группы) использовать t - тест, двухсторонняя АНОВА (дисперсионный анализ) и АНОКОВА (ковариационный анализ) анализ.

Цель определяет, зависят ли ожидаемые мили на галлон для автомобиля от десятилетия, в которое это было произведено, или местоположение, где это было произведено.

Примечание

nominal и типы данных массива ordinal могут быть удалены в будущем релизе. Чтобы представлять упорядоченный и неупорядоченные дискретные, нечисловые данные, используйте Категориальные массивы (MATLAB) тип данных вместо этого.

Загрузка демонстрационных данных.
Создайте фактор в течение десятилетия изготовления.
Отобразите на графике данные, сгруппированные по категориям.
Вычислите итоговую статистику.
Проведите 2D демонстрационный t-тест для равных средних значений группы.
Создайте фактор для местоположения изготовления.
Объедините категории.
Вычислите итоговую статистику.
Проведите двухстороннюю АНОВУ.
Проведите анализ АНОКОВОЙ.
Используйте интерактивный инструмент.

Загрузка демонстрационных данных.

load('carsmall')
unique(Model_Year)

Переменная MPG имеет мили на измерения галлона на выборке 100 автомобилей. Переменные Model_Year и Origin содержат модельный год и страну происхождения для каждого автомобиля.

Первым фактором интереса является десятилетие изготовления. В данных существует три производственных года.

Создайте фактор в течение десятилетия изготовления.

Создайте порядковый массив под названием Decade путем слияния наблюдений с лет, которые 70 и 76 в категорию маркировали 1970s, и помещение наблюдений от 82 в категорию маркировало 1980s.

Decade = ordinal(Model_Year,{'1970s','1980s'},[],[70 77 82]);
getlevels(Decade)

ans = 

     1970s      1980s

Отобразите на графике данные, сгруппированные по категориям.

Чертите диаграмму миль на галлон, сгруппированный десятилетием изготовления.

figure()
boxplot(MPG,Decade)
title('Miles per Gallon, Grouped by Decade of Manufacture')

Диаграмма предполагает, что мили на галлон выше в автомобилях, произведенных в течение 1980-х по сравнению с 1970-ми.

Вычислите итоговую статистику.

Вычислите среднее значение и отклонение миль на галлон в течение каждого десятилетия.

[xbar,s2,grp] = grpstats(MPG,Decade,{'mean','var','gname'})

xbar =

   19.7857
   31.7097


s2 =

   35.1429
   29.0796


grp = 

    '1970s'
    '1980s'

Этот вывод показывает, что средними милями на галлон в 1980-х был 31.71, по сравнению с 19.79 в 1970-х. Отклонения в этих двух группах подобны.

Проведите 2D демонстрационный t-тест для равных средних значений группы.

Проведите 2D демонстрационный t - тест, приняв равные отклонения, чтобы протестировать на значительную разницу между средними значениями группы. Гипотеза

$\begin{array}{l} H_{0} : μ_{70} = μ_{80} \\ H_{A} : μ_{70} \neq μ_{80} . \end{array}$

MPG70 = MPG(Decade=='1970s');
MPG80 = MPG(Decade=='1980s');
[h,p] = ttest2(MPG70,MPG80)

h =

     1


p =

   3.4809e-15

Логическое значение 1 указывает на нулевую гипотезу, отклоняется в значении по умолчанию 0,05 уровня значения. P-значение для теста является очень маленьким. Существуют достаточные доказательства, что средние мили на галлон в 1980-х отличаются от средних миль на галлон в 1970-х.

Создайте фактор для местоположения изготовления.

Вторым фактором интереса является местоположение изготовления. Во-первых, преобразуйте Origin в номинальный массив.

Location = nominal(Origin);
tabulate(Location)

tabulate(Location)
    Value    Count   Percent
   France        4      4.00%
  Germany        9      9.00%
    Italy        1      1.00%
    Japan       15     15.00%
   Sweden        2      2.00%
      USA       69     69.00%

Существует шесть разных стран изготовления. Европейские страны имеют относительно немного наблюдений.

Объедините категории.

Объедините категории France, Germany, Italy и Sweden в новую категорию под названием Europe.

Location = mergelevels(Location, ...
    {'France','Germany','Italy','Sweden'},'Europe');
tabulate(Location)

   Value    Count   Percent
   Japan       15     15.00%
     USA       69     69.00%
  Europe       16     16.00%

Вычислите итоговую статистику.

Вычислите средние мили на галлон, сгруппированный местоположением изготовления.

[xbar,grp] = grpstats(MPG,Location,{'mean','gname'})

xbar =

   31.8000
   21.1328
   26.6667


grp = 

    'Japan'
    'USA'
    'Europe'

Этот результат показывает, что средние мили на галлон являются самыми низкими для выборки автомобилей, произведенных в США.

Проведите двухстороннюю АНОВУ.

Проведите двухстороннюю АНОВУ, чтобы протестировать на различия в ожидаемых милях на галлон между факторными уровнями для Decade и Location.

Статистическая модель

$M P G_{i j} = μ + α_{i} + β_{j} + ε_{i j}, i = 1, 2; j = 1, 2, 3,$

где _MPGij является ответом, милями на галлон, для автомобилей, сделанных в десятилетие i в местоположении j. Эффекты обработки для первого фактора, десятилетие изготовления, являются условиями _αi (ограниченный суммировать, чтобы обнулить). Эффекты обработки для второго фактора, местоположения изготовления, являются условиями _βj (ограниченный суммировать, чтобы обнулить). _εij является некоррелироваными, нормально распределенными шумовыми условиями.

Гипотезы, чтобы протестировать являются равенством эффектов десятилетия,

$\begin{array}{l} H_{0} : α_{1} = α_{2} = 0 \\ H_{A} : a t l e a s t o n e α_{i} \neq 0, \end{array}$

и равенство эффектов местоположения,

$\begin{array}{l} H_{0} : β_{1} = β_{2} = β_{3} = 0 \\ H_{A} : a t l e a s t o n e β_{j} \neq 0. \end{array}$

Можно провести несколько - фактор АНОВА, использующая anovan.

anovan(MPG,{Decade,Location},'varnames',{'Decade','Location'});

Этот вывод показывает результаты двухсторонней АНОВОЙ. P-значением для тестирования равенства эффектов десятилетия является 2.88503e-18, таким образом, нулевая гипотеза отклоняется на 0,05 уровнях значения. P-значением для тестирования равенства эффектов местоположения является 7.40416e-10, таким образом, эта нулевая гипотеза также отклоняется.

Проведите анализ АНОКОВОЙ.

Потенциальный нарушитель спокойствия в этом анализе является автомобильным весом. Автомобили с большим весом, как ожидают, будут иметь более низкий расход бензина. Включайте переменную Weight как непрерывный ковариант в АНОВОЙ; то есть, проведите анализ АНОКОВОЙ.

Принимая параллельные строки, статистическая модель

$M P G_{i j k} = μ + α_{i} + β_{j} + γ W e i g h t_{i j k} + ε_{i j k}, i = 1, 2; j = 1, 2, 3; k = 1, ..., 100.$

Различием между этой моделью и двухсторонней моделью АНОВОЙ является включение непрерывного предиктора, _Weightijk, веса для k th автомобиль, который был сделан в i th десятилетием и в j th местоположение. Наклонным параметром является γ.

Добавьте непрерывный ковариант как третью группу во втором входном параметре anovan. Используйте аргумент пары "имя-значение" Continuous, чтобы указать, что Weight (третья группа) непрерывен.

anovan(MPG,{Decade,Location,Weight},'Continuous',3,...
       'varnames',{'Decade','Location','Weight'});

Этот вывод показывает, что, когда автомобильный вес рассматривается, существуют недостаточные доказательства производственного эффекта местоположения (p-значение = 0.1044).

Используйте интерактивный инструмент.

Можно использовать интерактивный aoctool, чтобы исследовать этот результат.

aoctool(Weight,MPG,Location);

Эта команда открывает три диалоговых окна. В диалоговом окне Prediction Plot АНОКОВОЙ выберите модель Separate Means.

Этот вывод показывает, что, когда вы не включаете Weight в модель, существуют довольно значительные различия в ожидаемых милях на галлон среди трех производственных мест. Обратите внимание на то, что здесь модель не настраивает в течение десятилетия производства.

Теперь, выберите модель Parallel Lines.

Когда вы включаете Weight в модель, различие в ожидаемых милях на галлон среди трех производственных мест намного меньше.

Документация