Иерархические мультиномиальные модели

Результатом переменной ответа иногда может быть одно из ограниченного набора возможных значений. Если есть только два возможных результата, таких как мужчина и женщина для пола, эти ответы называются бинарными ответами. Если есть несколько результатов, то они называются политомными ответами. Эти ответы обычно являются качественными, а не количественными, такими как предпочтительные районы для проживания в городе, уровень тяжести заболевания, вид для определенного типа цветка и так далее. Политомные ответы также могут иметь категории, которые не независимы друг от друга. Вместо этого ответ происходит последовательным образом, или одна категория вложена в предыдущую. Эти типы ответов называются иерархическими, или последовательными, или вложенными полиномиальными ответами.

Например, если ответ - это количество сигарет, которые человек курит в данный день, первый уровень - является ли человек курильщиком или нет. Учитывая, что он или она курильщик, количество сигарет, которые он или она курит, может быть от одной до пяти или более пяти в день. Учитывая, что это более 5, этот человек может курить от 6 до 10 или более 10 сигарет в день и так далее. Группа риска на каждом уровне изменяется соответствующим образом. На первом уровне группа риска - это все лица, представляющие интерес (курильщик или нет), скажем м. Если из m человек, y1 из них не курильщики, то на втором уровне группа риска - это количество всех курящих людей, m - y1. Если y2 из этих m - y1 особей курят от одной до пяти сигарет в день, то на третьем уровне группа риска составляет m - y1 - y2. Так, на каждом уровне количество людей в этой категории становится условным биномиальным наблюдением.

Иерархические полиномиальные регрессионные модели являются расширениями бинарных регрессионных моделей, основанных на условных двоичных наблюдениях. По умолчанию используется модель с различными пересечениями и уклонами (коэффициентами) между категориями, в этом случае mnrfit подходит для последовательности условных биномиальных моделей. 'interactions','on' пара имя-значение указывает это в mnrfit. Функция канала по умолчанию - logit и 'link','logit' пара имя-значение определяет эту модель в mnrfit.

Предположим, что вероятность того, что индивид находится в категории j, учитывая, что он или она не находится в предыдущих категориях, равна _{¼ j}, и кумулятивная вероятность того, что ответ принадлежит к категории j или предыдущей категории, равна P (y ≤ _cj). Тогда иерархическая модель с функцией логитовой связи и различными уклонами предполагается

$\begin{array}{l} \ln \frac{(_{}}{π11-P_{}} (y\leqc1)) \frac{_{=ln}}{_{}}_{} (π11-π1)_{=}_{}_{}_{}_{α1 +β11X1 +β12X2 +}_{} \\ \frac{{ +β1pXp}_{,}}{ln (_{} π21-P} \frac{_{(y≤c2)}}{)_{=ln} (_{}} π21-_{(} {π1}_{} {+π2}_{)})_{=}_{}_{}_{} \\ α2 +β21X2 +β22X2 + \\ \frac{_{ +β2pXp}}{, ⋮ln (_{}} πk−11−P \frac{_{}}{(y\leqck-1))_{} =ln_{(}} {πk−11−}_{(} π1 +_{\dots +πk−1})_{)} =_{αk−1 +β}_{} {(k−1)}_{1X1 +β}_{} \end{array}$ (k−1) 2X2 + ⋯ +β (k−1) pXp.

Например, для переменной ответа с четырьмя последовательными категориями существуют 4-1 = 3 уравнения следующим образом:

$\begin{array}{l} \ln \frac{(}{{security1δ} + 2λ} +_{} 3ā4)_{}_{}_{}_{}_{}_{} \\ \frac{}{{}_{=α1+β11X1+β12X2+⋯+β1pXp,ln} {}_{(}} {security2δ}_{} +_{} {3ā4}_{)}_{}_{}_{}_{} \\ \frac{}{}_{} =α2+β21X1+β22X2+\dots+β2pXp,ln_{(}_{} security3ā4)_{}_{}_{}_{} \end{array}$ =α3+β31X1+β32X2+⋯+β3pXp.

Коэффициенты βij интерпретируются в пределах каждого уровня. Например, для предыдущего примера курения β12 показывает влияние X2 на логарифмические шансы человека, являющегося курильщиком, по сравнению с некурящим, при условии, что все остальное поддерживается постоянным. Альтернативно, β22 показывает влияние X2 на логарифмические шансы человека, курящего от одной до пяти сигарет, по сравнению с более чем пятью сигаретами в день, учитывая, что он или она является курильщиком, при условии, что все остальное поддерживается постоянным. Аналогично, β23 показывает влияние X2 на логарифмические шансы человека, курящего от 6 до 10 сигарет, по сравнению с более чем 10 сигаретами в день, учитывая, что он или она курит более 5 сигарет в день, при условии, что все остальное поддерживается постоянным.

Для иерархических моделей можно указать другие функции связи. 'link','probit' аргумент пары имя-значение использует функцию пробит-связи. При допущении отдельных откосов модель становится

$\begin{array}{l} Λ^{−} 1_{} ({¼-1}_{)}_{}_{}_{}_{} \\ ^{=α1+β11X1+\dots+β1pXp,} {Start−}_{} 1_{} (_{α2)}_{}_{}_{} \\ =α2+β21X1+⋯+β2pXp, ⋮ \\ ^{} {⋮Φ−1}_{} ({¼-k}_{)}_{}_{}_{}_{} \end{array}$ =αk+βk1X1+⋯+βkpXp,

где αj - условная вероятность нахождения в категории j, учитывая, что она не в категориях, предшествующих категории j. И ^Φ-1 (.) является обратной стандартной нормальной кумулятивной функции распределения.

После оценки коэффициентов модели с использованием mnrfit, можно оценить кумулятивные вероятности или кумулятивное число в каждой категории, используя mnrval с 'type','conditional' аргумент пары имя-значение. Функция mnrval принимает оценки коэффициентов и статистику модели mnrfit возвращает и оценивает категориальные вероятности или число в каждой категории и их доверительные границы. Можно указать категорию или совокупные вероятности или числа для оценки, изменив значение 'type' аргумент пары имя-значение в mnrval.

Ссылки

[1] Маккалла, П. и Дж. А. Нелдер. Обобщенные линейные модели. Нью-Йорк: Chapman & Hall, 1990.

[2] Ляо, Т. Ф. Интерпретация вероятностных моделей: серии логит, пробит и другие обобщенные линейные модели: количественное применение в социальных науках. Sage Publications, 1994.

См. также

fitglm | glmfit | glmval | mnrfit | mnrval

Документация