Нелинейная регрессия

Что такое нелинейная регрессия?

Целью регрессионных моделей является описание переменной ответа как функции независимых переменных. Модели множественной линейной регрессии описывают ответ как линейную комбинацию коэффициентов и функций независимых переменных. Нелинейности могут быть смоделированы с использованием нелинейных функций независимых переменных. Однако коэффициенты всегда входят в модель линейным образом.

Модели нелинейной регрессии являются более механистическими моделями нелинейных отношений между откликом и независимыми переменными. Параметры могут вводиться в модель как экспоненциальная, тригонометрическая, степенная или любая другая нелинейная функция. Неизвестные параметры в модели оцениваются путем минимизации статистического критерия, такого как отрицательное логарифмическое правдоподобие или сумма квадратичных отклонений между наблюдаемыми и прогнозируемыми значениями.

В случае фармакокинетических (PK) исследований данные ответа обычно представляют некоторые измеренные концентрации лекарств, а независимыми переменными часто являются доза и время. Нелинейная функция, часто используемая для таких данных, является экспоненциальной функцией, поскольку многие лекарства, распределенные у пациента, исключаются экспоненциальным образом. Одним из параметров PK для оценки в этом случае является скорость, с которой лекарство удаляется из организма с учетом данных о концентрации-времени.

Например, рассмотрим данные о концентрации лекарственного средства в плазме от одного индивидуума после внутривенного введения болюсной дозы, измеренной в различные моменты времени с некоторыми ошибками. Предположим, что измеренная концентрация лекарства следует за моноэкспоненциальным снижением: $_{Ct} =_{}^{{C0e}_{} -}$ ket + α

Эта модель описывает временной курс концентрации лекарственного средства в организме (_Ct) как функцию концентрации лекарственного средства после внутривенного введения болюсной дозы при t = 0 (_C0), времени (t) и параметра скорости элиминации (_ke). δ - переменная среднего нуля и единичной дисперсии, то есть $ε∼N (0,1$ ), представляющая ошибку измерения, а a - параметр модели ошибки (здесь стандартное отклонение).

Более обобщенно можно написать модель как

$_{yi} = f (t; p)_{} +$ g (αi)

где _yi - i-й ответ (такой как концентрация лекарственного средства), f - функция времени t и параметров модели p (таких как _{ke) и} модели ошибки $g (_{} αi$ ).

Варианты подгонки в SimBiology

В этой таблице представлены варианты нелинейной регрессии, доступные в SimBiology ®.

Вариант фитинга

Пример

Индивидуальная оценка параметров (неохлажденный фитинг)

Подгонка каждого отдельного объекта, что приводит к одному набору оценок параметров для каждого объекта.

Оценка параметров, специфичных для категории или группы

Подгонять каждую категорию или группу по отдельности, что приводит к одному набору оценок параметров для каждой категории.

Оценка параметров для всего населения (объединенный фитинг)

Подгонка всех данных, объединенных вместе, в результате чего получается только один набор оценок параметров.

Кроме того, SimBiology поддерживает четыре вида моделей ошибок для измеренных или наблюдаемых ответов, а именно: постоянные (по умолчанию), пропорциональные, комбинированные и экспоненциальные. Дополнительные сведения см. в разделе Модели ошибок. В зависимости от метода оптимизации можно указать модель ошибки для каждого ответа или всех ответов. Дополнительные сведения см. в разделе Поддерживаемые методы оценки параметров в SimBiology.

Преобразования параметров

SimBiology поддерживает три преобразования параметров. Эти преобразования параметров могут быть полезны для улучшения сходимости фитинга или для обеспечения границ параметров.

Общая модель, объясненная ранее, является $_{yi} = f (t; p)_{} +$ g (αi), где p - параметры модели, которые можно преобразовать. Рассмотрим следующие два уравнения.

$β = T$ (p)

$p =^{T} -$ 1 (β)

Здесь β представляет преобразованные параметры модели, p представляет нетрансформированные параметры модели, T является преобразованием, и T^-1 - обратное преобразование.

SimBiology выполняет оценку параметров с использованием преобразованных параметров β, что означает, что $^{}$ используется преобразованная модель F (t; β) = f (t; T − 1 (β)), гдеF - функция модели, использующая преобразованные параметры. Эквивалентно, функция модели может быть переписана как $f (t; p) = F (t;$ T (p)).

Другими словами, оптимизатор SimBiology использует преобразованные значения во время оценки максимального правдоподобия, но сообщенный результат аппроксимации возвращается обратно в пространство модели (нетрансформированные значения). Например, если вы оцениваете логарифмически преобразованный параметр зазора Cl, у вас есть _Clβ = log (Cl), где _Clβ - это то, что использует оптимизатор, а Cl - то, что видит модель.

Задание преобразований параметров накладывает неявные границы на нетрансформированные значения параметров. log преобразование сохраняет значение параметра всегда положительным, и logit и probit преобразования поддерживают значение параметра в диапазоне между 0 и 1. Кроме того, можно задать дополнительные ограничения для значений параметров, предоставив явные границы для нетрансформированных параметров p или для преобразованных параметров β.

Преобразование Преобразованный параметр и диапазон † Нетрансформированные параметры и диапазон ‡ Описание

Преобразование	Преобразованный параметр и диапазон †	Нетрансформированные параметры и диапазон ‡	Описание
`log`	$β = \log (p)$ ∈[−Inf,Inf]	$p = \exp (β)$ ∈[0,Inf]	Во многих случаях `log` преобразование полезно для параметров, таких как константы скорости, значения которых могут охватывать несколько порядков величины, и исследования пространства параметров для таких параметров. `log` преобразование также может быть полезным для положительных физических величин, таких как зазор или объем отсека. Применение `log` преобразование накладывает неявную границу на нетрансформированный параметр, так что его значение всегда является положительным.
`logit`	$β = logit (p ) = \frac{}{log (} p1 - p)$ ∈[−Inf,Inf]	$p = 1 / (1 + exp (− β)$ ) ∈[0,1]	`logit` преобразование накладывает неявную связь (между `0` и `1`) на нетрансформированном значении параметра. Это может быть полезно для параметров, которые имеют значения только между `0` и `1`, такие как биодоступность. Кроме того, можно указать границы параметров (с помощью `EstimatedInfo object`) вместо указания `logit` трансформация.
`probit`	$β = norminv (p)$ ∈[−Inf,Inf]	$p = normcdf (β)$ ∈[0,1]	Аналогично `logit`, `probit` преобразование накладывает неявную связь (между `0` и `1`) на нетрансформированном значении параметра. SimBiology использует нормальную функцию обратного кумулятивного распределения `norminv` (Статистика и инструментарий машинного обучения). `probit` для преобразования требуются Toolbox™ статистики и машинного обучения.

log

β = \log (p)

∈[−Inf,Inf]

p = \exp (β)

∈[0,Inf]

Во многих случаях log преобразование полезно для параметров, таких как константы скорости, значения которых могут охватывать несколько порядков величины, и исследования пространства параметров для таких параметров. log преобразование также может быть полезным для положительных физических величин, таких как зазор или объем отсека.

Применение log преобразование накладывает неявную границу на нетрансформированный параметр, так что его значение всегда является положительным.

logit

β = logit (p ) = \frac{}{log (} p1 - p)

∈[−Inf,Inf]

p = 1 / (1 + exp (− β)

) ∈[0,1]

logit преобразование накладывает неявную связь (между 0 и 1) на нетрансформированном значении параметра. Это может быть полезно для параметров, которые имеют значения только между 0 и 1, такие как биодоступность. Кроме того, можно указать границы параметров (с помощью EstimatedInfo object) вместо указания logit трансформация.

probit

β = norminv (p)

∈[−Inf,Inf]

p = normcdf (β)

∈[0,1]

Аналогично logit, probit преобразование накладывает неявную связь (между 0 и 1) на нетрансформированном значении параметра. SimBiology использует нормальную функцию обратного кумулятивного распределения norminv (Статистика и инструментарий машинного обучения).

probit для преобразования требуются Toolbox™ статистики и машинного обучения.

† Использовать InitialTransformedValue и TransformedBounds свойства EstimatedInfo object для установки начального преобразованного значения и преобразованных границ в требуемое подмножество диапазона.

‡ Использовать InitialValue и Bounds свойства EstimatedInfo object установка начального нетрансформированного значения и нетрансформированных границ для требуемого подмножества диапазона.

Оценка максимального правдоподобия

SimBiology оценивает параметры методом максимального правдоподобия. Вместо того, чтобы непосредственно максимизировать функцию правдоподобия, SimBiology создает эквивалентную задачу минимизации. Когда это возможно, оценка формулируется как оптимизация взвешенных наименьших квадратов (WLS), которая минимизирует сумму квадратов взвешенных остатков. В противном случае оценка формулируется как минимизация отрицательного логарифма правдоподобия (NLL). Состав WLS часто сходится лучше, чем состав NLL, и SimBiology может использовать преимущества специализированных алгоритмов WLS, таких как алгоритм Левенберга-Марквардта, реализованный в lsqnonlin и lsqcurvefit. SimBiology использует WLS, когда существует одна модель ошибки, которая является постоянной, пропорциональной или экспоненциальной. SimBiology использует NLL, если имеется комбинированная модель ошибки или модель с несколькими ошибками, то есть модель с моделью ошибки для каждого ответа.

sbiofit поддерживает различные методы оптимизации и передает сформулированное выражение WLS или NLL методу оптимизации, который минимизирует его. Для простоты каждое выражение, показанное ниже, предполагает только одну модель ошибки и один ответ. При наличии нескольких ответов SimBiology берет сумму выражений, соответствующих моделям ошибок заданных ответов.

	Выражение, которое сворачивается
Взвешенные наименьшие квадраты (WLS)	Для постоянной модели ошибок $_{}^{∑iN} {(_{} yi_{-}}^{}$ fi) 2
	Для модели пропорциональной ошибки $_{}^{∑iN} \frac{{(_{} yi_{-}}^{}}{{fi}_{)}^{}_{}^{}}$ 2fi2/fgm2
	Для экспоненциальной модели ошибок $_{}^{∑iN} {(_{} lnyi -_{}}^{}$ lnfi) 2
	Для числовых весов $_{}^{∑iN} \frac{{(_{} yi_{-}}^{}}{{fi}_{)}_{}}$ 2wgm/wi
Отрицательное логарифмическое правдоподобие (NLL)	Для комбинированной модели ошибок и модели с несколькими ошибками $_{}^{∑iN} \frac{{(_{} yi_{-}}^{}}{fi)_{}^{}}_{}^{} \sqrt{_{}^{}}$ 22σi2+∑iNln2πσi2

Переменные определяются следующим образом.

N	Количество экспериментальных наблюдений
_yi	I-е экспериментальное наблюдение
$_{fi}$	Прогнозируемое значение i-го наблюдения
$_{σi}$	Стандартное отклонение i-го наблюдения. Для модели с постоянной погрешностью $_{}$ Для модели с пропорциональной погрешностью, $_{starti} =_{}$ b 'fi \| Для комбинированной модели с ошибками $_{}_{}$
$_{fgm}$	$_{fgm} {=_{(}^{}_{}}^{\frac{∏iN'fi\|}{)}}$ 1N
$_{wi}$	Вес i-го прогнозируемого значения
$_{wgm}$	$_{wgm} {=_{(}^{}_{}}^{\frac{∏iNwi}{)}}$ 1N

При использовании числовых весов или весовой функции предполагается, что весовые коэффициенты обратно пропорциональны дисперсии ошибки, то есть $_{}^{} \frac{^{}}{_{}}$ При использовании весов нельзя указать модель ошибки, кроме постоянной модели ошибки.

Различные методы оптимизации имеют различные требования к функции, которая минимизируется. Для некоторых методов оценка параметров модели выполняется независимо от оценки параметров модели ошибки. Следующая таблица суммирует модели ошибок и любые отдельные формулы, используемые для оценки параметров модели ошибок, где a и b - параметры модели ошибок, а e - стандартная переменная среднего нуля и единичной дисперсии (гауссова).

Модель ошибки	Функция оценки параметров ошибок
`'constant'`: $_{yi} =_{} fi$ + ae	$^{} \frac{}{}_{}^{a2=1N∑iN} {(_{} yi_{-}}^{}$ fi) 2
`'exponential'`: $_{yi} =_{} fiexp ($ ae)	$^{} \frac{}{}_{}^{a2=1N∑iN} {(_{} lnyi -_{}}^{}$ lnfi) 2
`'proportional'`: $_{yi} =_{} fi +_{}$ b 'fi' e	$^{} \frac{}{}_{}^{b2=1N∑iN} {\frac{(_{} yi_{-}}{_{}}}^{}$ fifi) 2
`'combined'`: $_{yi} =_{} fi + (a_{} +$ b 'fi \|) e	Параметры ошибок включены в минимизацию.
Веса	$^{} \frac{}{}_{}^{a2=1N∑iN} {(_{} yi_{-}}^{} {fi}_{)}$ 2wi

Примечание

nlinfit поддерживают только отдельные модели ошибок, а не модели с несколькими ошибками, то есть специфичные для ответа модели ошибок. Для комбинированной модели ошибок используется итерационный алгоритм WLS. Для других моделей ошибок используется алгоритм WLS, как описано выше. Для получения более подробной информации см. nlinfit (Статистика и инструментарий машинного обучения).

Рабочий процесс подгонки для sbiofit

Следующие шаги показывают один из рабочих процессов, которые можно использовать в командной строке для подгонки модели PK.

Импорт данных.
Преобразование данных в groupedData формат.
Определение данных дозирования. Дополнительные сведения см. в разделе Дозы в моделях SimBiology.
Создайте несущую модель (одно-, двух- или многокамерную). Дополнительные сведения см. в разделе Создание фармакокинетических моделей.
Сопоставьте переменную ответа из данных с компонентом модели. Например, если у вас есть данные измеренной концентрации лекарственного средства для центрального отделения, то сопоставьте их с видами лекарственного средства в центральном отделении (обычно Drug_Central виды).
Укажите параметры для оценки с помощью EstimatedInfo object. При необходимости можно задать преобразования параметров, начальные значения и границы параметров.
Выполнить оценку параметров с помощью sbiofit.

Проиллюстрированные примеры см. в следующих разделах.

См. также

EstimatedInfo object | groupedData | sbiofit | sbiofitmixed

Документация