Модели многочлена для порядковых ответов

Результатом переменной отклика может быть один из ограниченного набора возможных значений. Если существует только два возможных исхода, такие как штекер и розетка для пола, эти ответы называются бинарными ответами. Если существует несколько результатов, то они называются polytomous ответами. Некоторые примеры polytomous ответов включают уровни болезни (умеренный, средний, серьезный), предпочтенные районы, чтобы жить в городе, разновидностях для определенного цветочного типа, и так далее. Иногда среди категорий ответа может быть естественный порядок. Эти ответы называются порядковыми ответами.

Упорядоченное расположение может быть свойственно от выбора категории, таково как человек, не удовлетворяемый, удовлетворенный, или очень удовлетворено онлайновым обслуживанием клиентов. Упорядоченное расположение может также быть введено классификацией скрытой (непрерывной) переменной, такой как в случае человека, находящегося в низком риске, среднем риске или группе высокого риска для разработки определенной болезни, на основе количественной медицинской меры, такой как кровяное давление.

Можно задать модель регрессии многочлена, которая использует естественное упорядоченное расположение среди категорий ответа. Эта порядковая модель описывает отношение между интегральными вероятностями категорий и переменных прогноза.

Различные функции ссылки могут описать это отношение с логитом и пробитом, являющимся наиболее используемым.

Логит: функция ссылки по умолчанию использование mnrfit для порядковых категорий является функцией ссылки логита. Это моделирует журнал совокупные разногласия. Пара "имя-значение" 'link','logit' задает это в mnrfit. Совокупные разногласия журнала являются логарифмом отношения вероятности, что ответ принадлежит категории со значением, меньше чем или равным категории j, P (y ≤ c _j), и вероятность, что ответ принадлежит категории со значением, больше, чем категория j, P (y> c _j).
Порядковые модели обычно основаны на предположении, что эффекты переменных прогноза являются тем же самым для всех категорий на логарифмическом масштабе. Таким образом, модель имеет различные прерывания, но общие наклоны (коэффициенты) среди категорий. Эта модель называется параллельной регрессией или пропорциональной моделью разногласий. Это - значение по умолчанию для порядковых ответов, и пара "имя-значение" 'interactions','off' задает эту модель в mnrfit.
Пропорциональная модель разногласий
$\begin{array}{l} \ln (\frac{P (y \leq c_{1})}{P (y > c_{1})}) = \ln (\frac{π_{1}}{π_{2} + \dots + π_{k}}) = α_{1} + β_{1} X_{1} + β_{2} X_{2} + \dots + β_{p} X_{p}, \\ \ln (\frac{P (y \leq c_{2})}{P (y > c_{2})}) = \ln (\frac{π_{1} + π_{2}}{π_{3} + \dots + π_{k}}) = α_{2} + β_{1} X_{1} + β_{2} X_{2} + \dots + β_{p} X_{p}, \\ ⋮ \\ \ln (\frac{P (y \leq c_{k - 1})}{P (y > c_{k - 1})}) = \ln (\frac{π_{1} + π_{2} + \dots + π_{k - 1}}{π_{k}}) = α_{k - 1} + β_{1} X_{1} + β_{2} X_{2} + \dots + β_{p} X_{p}, \end{array}$
где _πj, j = 1, 2..., k, является вероятностями категории.
Например, для переменной отклика с тремя категориями, существуют 3 – 1 = 2 уравнения можно следующим образом:

$\begin{array}{l} \ln (\frac{π {}_{1}}{π {}_{2}+ π {}_{3}}) = α_{1} + β_{1} X_{1} + β_{2} X_{2} + \dots + β_{p} X_{p}, \\ \ln (\frac{π {}_{1}+ π {}_{2}}{π {}_{3}}) = α_{2} + β_{1} X_{1} + β_{2} X_{2} + \dots + β_{p} X_{p} . \end{array}$
Под пропорциональным предположением разногласий частичным эффектом переменной прогноза X является инвариантным к выбору категории переменной отклика, j. Например, если существует три категории, то коэффициенты выражают влияние переменной прогноза на относительном риске или регистрируют разногласия значения ответа, находящегося в категории 1 по сравнению с категориями 2 или 3, или в категории 1 или 2 по сравнению с категорией 3.
Таким образом модульное изменение в переменной X ₂ означало бы изменение в совокупных разногласиях значения ответа, находящегося в категории 1 по сравнению с категориями 2 или 3 или категорией 1 или 2 по сравнению с категорией 3 фактором exp (β ₂), учитывая все остальное равное.
Можно альтернативно подобрать модель с различным прерыванием и наклонами среди категорий при помощи аргумента пары "имя-значение" 'interactions','on'. Однако с помощью этой опции для порядковых моделей, когда равная модель наклонов является истинными причинами снижение эффективности (вы теряете преимущество оценки меньшего количества параметров).
Пробит: аргумент пары "имя-значение" 'link','probit' использует функцию ссылки пробита, которая основана на нормально распределенном предположении скрытой переменной. Для порядковых переменных отклика это также называется упорядоченной нелинейной моделью вероятности с нормальным распределением. Рассмотрите модель регрессии, которая описывает отношение скрытого variable y* порядкового процесса и вектора переменных прогноза, X,
$y^{*} = β X + ε,$
где остаточный член ε имеет стандартное нормальное распределение. Предположим, что существует следующее отношение между скрытой переменной y* и наблюдаемой переменной y:
$\begin{array}{l} y = c_{} 1 i f α_{0} < y^{*} \leq α_{1}, \\ y = c_{} 2 i f α_{1} < y^{*} \leq α_{2}, \\ ⋮ ⋮ \\ y = c_{k} i f α_{k - 1} < y^{*} \leq α_{k}, \end{array}$
где α ₀ = – ∞ и α _k = ∞. Затем интегральная вероятность y, находящегося в категории j или одна из более ранних категорий, P (y ≤ c _j), равна
$P (y \leq c_{j}) = P (y^{*} < α_{j}) = P (β X + ε < α_{j}) = P (ε < α_{j} - β X) = Φ (α_{j} - β X),$
где Φ является стандартной нормальной кумулятивной функцией распределения. Таким образом,

$Φ^{- 1} (P (y \leq c_{j})) = α_{j} - β X,$
где _αj соответствует точкам разделения скрытой переменной и прерывания в модели регрессии. Это только содержит под предположениями о нормальной скрытой переменной и параллельной регрессии. В более общем плане, для переменной отклика с категориями k и несколькими предикторами, упорядоченная нелинейная модель вероятности с нормальным распределением
$\begin{array}{l} Φ^{- 1} (P (y \leq c_{1})) = α_{1} + β_{1} X_{1} + \dots + β_{p} X_{p}, \\ Φ^{- 1} (P (y \leq c_{2})) = α_{2} + β_{1} X_{1} + \dots + β_{p} X_{p}, \\ ⋮ ⋮ \\ Φ^{- 1} (P (y \leq c_{k - 1})) = α_{k - 1} + β_{1} X_{1} + \dots + β_{p} X_{p}, \end{array}$
где P (y ≤ c _j) = π ₁+ π ₂ +... + π _j.
Коэффициенты указывают на влияние модульного изменения в переменной прогноза на вероятности состояния. Положительный коэффициент, β ₁, например, указывает на увеличение базовой скрытой переменной с увеличением соответствующей переменной прогноза, X ₁. Следовательно, это вызывает уменьшение в P (y ≤ c ₁) и увеличение P (y ≤ c _k).

После оценки коэффициентов модели с помощью mnrfit можно оценить интегральные вероятности или совокупное число в каждой категории с помощью mnrval с опцией пары "имя-значение" 'type','cumulative'. mnrval принимает содействующие оценки и образцовую статистику, которую mnrfit возвращает и оценивает категориальные вероятности или номер в каждой категории и их доверительных интервалах. Можно задать который категория или условные вероятности или числа, чтобы оценить путем изменения значения аргумента пары "имя-значение" 'type'.

Ссылки

[1] Маккуллаг, P. и Дж. А. Нелдер. Обобщенные линейные модели. Нью-Йорк: Chapman & Hall, 1990.

[2] Долго, J. S. Модели регрессии для категориальных и ограниченных зависимых переменных. Мудрые публикации, 1997.

[3] Добсон, A. J. и А. Г. Барнетт. Введение в Обобщенные Линейные Модели. Чепмен и Холл/CRC. Taylor & Francis Group, 2008.

Документация

Модели многочлена для порядковых ответов

Ссылки

Смотрите также

Похожие темы

Документация Statistics and Machine Learning Toolbox

Поддержка