Результатом переменной ответа может быть одно из ограниченного набора возможных значений. Если есть только два возможных результата, таких как мужчина и женщина для пола, эти ответы называются бинарными ответами. Если есть несколько результатов, то они называются политомными ответами. Некоторые примеры политомных реакций включают уровни заболевания (легкого, среднего, тяжелого), предпочтительные районы для проживания в городе, виды для определенного типа цветов и так далее. Иногда среди категорий ответов может быть естественный порядок. Эти ответы называются порядковыми.
Заказ может быть неотъемлемым элементом выбора категории, например, если человек не удовлетворен, удовлетворен или очень доволен онлайн-обслуживанием клиентов. Упорядочение также может быть введено категоризацией скрытой (непрерывной) переменной, такой как в случае человека, находящегося в группе низкого риска, среднего риска или высокого риска развития определенного заболевания, на основе количественной медицинской меры, такой как артериальное давление.
Можно указать модель полиномиальной регрессии, которая использует естественный порядок среди категорий ответов. Эта порядковая модель описывает связь между кумулятивными вероятностями категорий и переменных предиктора.
Различные функции связи могут описывать эту связь с logit и probit, которые являются наиболее используемыми.
Logit: Функция связи по умолчанию mnrfit для порядковых категорий используется функция logit link. Это моделирует накопительные шансы журнала. 'link','logit' пара имя-значение указывает это в mnrfit. Логарифмические кумулятивные шансы - это логарифм отношения вероятности того, что ответ относится к категории со значением, меньшим или равным категории j, P (y ≤ cj), и вероятности того, что ответ принадлежит к категории со значением, большим, чем категория j, P (y > cj).
Порядковые модели обычно основаны на предположении, что эффекты переменных предиктора одинаковы для всех категорий логарифмической шкалы. То есть модель имеет разные перехваты, но общие наклоны (коэффициенты) среди категорий. Эта модель называется параллельной регрессией или моделью пропорциональных шансов. Это значение по умолчанию для порядковых ответов и 'interactions','off' пара имя-значение определяет эту модель в mnrfit.
Модель пропорциональных шансов
π1+π2+⋯+πk−1πk) =αk−1+β1X1+β2X2+⋯+βpXp,
где αj, j = 1, 2,..., k - вероятности категорий.
Например, для переменной ответа с тремя категориями существуют уравнения 3 - 1 = 2 следующим образом:
=α2+β1X1+β2X2+⋯+βpXp.
При допущении пропорциональных шансов частичный эффект прогнозирующей переменной X инвариантен выбору категории переменных отклика j. Например, если есть три категории, то коэффициенты выражают влияние переменной предиктора на относительный риск или логарифмические шансы значения ответа в категории 1 против категорий 2 или 3 или в категории 1 или 2 против категории 3.
Таким образом, единичное изменение переменной X2 будет означать изменение совокупных шансов значения ответа в категории 1 по сравнению с категориями 2 или 3, или категории 1 или 2 по сравнению с категорией 3 на коэффициент exp (β2), при условии, что все остальные равны .
Можно также подогнать модель с различными пересечениями и уклонами между категориями с помощью 'interactions','on' аргумент пары имя-значение. Однако использование этой опции для порядковых моделей при истинной модели равных откосов приводит к потере эффективности (вы теряете преимущество оценки меньшего количества параметров).
Пробит: 'link','probit' аргумент пары имя-значение использует функцию пробит-канала, которая основана на нормально распределенном предположении скрытой переменной. Для переменных порядкового ответа это также называется упорядоченной моделью пробита. Рассмотрим регрессионную модель, которая описывает взаимосвязь скрытой переменной y * порядкового процесса и вектора переменных предиктора, X,
+ start,
где термин «ошибка» («error»), имеет стандартное нормальное распределение. Предположим, что существует следующая зависимость между скрытой переменной y * и наблюдаемой переменной y:
где α0 = - ∞ и αk = ∞. Тогда кумулятивная вероятность нахождения y в категории j или одной из более ранних категорий, P (y ≤ cj), равна
где Λ - стандартная нормальная кумулятивная функция распределения. Таким образом,
αj − βX,
где αj соответствует точкам отсечения скрытой переменной и пересечению в регрессионной модели. Это выполняется только при допущениях нормальной скрытой переменной и параллельной регрессии. В более общем случае для переменной ответа с k категориями и несколькими предикторами упорядоченная модель пробита
=αk−1+β1X1+⋯+βpXp,
где P (y ≤ cj) = ¼ 1 + α2 +... + αj.
Коэффициенты указывают влияние единичного изменения переменной предиктора на вероятность состояния. Положительный коэффициент β1, например, указывает на увеличение основной скрытой переменной с увеличением соответствующей предикторной переменной, X1. Следовательно, это вызывает снижение P (y ≤ c1) и увеличение P (y ≤ ck).
После оценки коэффициентов модели с использованием mnrfit, можно оценить кумулятивные вероятности или кумулятивное число в каждой категории, используя mnrval с 'type','cumulative' параметр пары имя-значение. mnrval принимает оценки коэффициентов и статистику модели mnrfit возвращает и оценивает категориальные вероятности или число в каждой категории и их доверительные интервалы. Можно указать категорию, условные вероятности или числа для оценки, изменив значение 'type' аргумент пары имя-значение.
[1] Маккалла, П. и Дж. А. Нелдер. Обобщенные линейные модели. Нью-Йорк: Chapman & Hall, 1990.
[2] Long, J.S. Регрессионные модели для категориальных и ограниченных зависимых переменных. Sage Publications, 1997.
[3] Добсон, A. J. и А. Г. Барнетт. Введение в обобщенные линейные модели. Чепмен и Холл/КПР. Taylor & Francis Group, 2008.
fitglm | glmfit | glmval | mnrfit | mnrval