Этот раздел содержит обзор математики моделей 2D этапа. Полным справочником для моделирования 2D этапа является Davidian и Giltinan [3]. Информация разделена на следующие разделы:
Линдстром и Бэйтс [6] задают повторенные измерения как данные, сгенерированные путем наблюдения многих индивидуумов неоднократно при различных экспериментальных условиях, где индивидуумы приняты, чтобы составить случайную выборку от населения интереса. Важный класс повторных измерений является продольными данными, где наблюдения упорядочены временем или положением на пробеле. В более общем плане продольные данные заданы как повторенные измерения, где наблюдения относительно одного индивидуума не или не могут быть, случайным образом присвоены уровням обработки интереса.
Моделирование данных этого вида обычно включает характеристику отношения между измеренным откликом, y, и повторным фактором измерения или ковариантом x. Часто, базовое систематическое отношение между y и x нелинейно. В некоторых случаях соответствующая нелинейная модель может быть выведена на физических или механистических основаниях. Однако в других контекстах нелинейное отношение может быть наложено просто, чтобы предоставить удобное эмпирическое описание для данных. Присутствие повторных наблюдений относительно индивидуума требует особого ухода в охарактеризовании изменения экспериментальных данных. В частности, важно представлять два источника изменения явным образом: случайное изменение среди измерений в рамках данного отдельного (внутриотдельного) и случайного изменения среди (межличностных) индивидуумов. Дедуктивные процедуры вмещают эти различные компоненты отклонения в рамках соответствующей иерархической статистической модели. Это - основная идея позади анализа повторных данных об измерении.
Праздник [1,2] был, возможно, первым, чтобы применить нелинейные повторные аналитические процедуры измерений, чтобы зажечь данные о механизме воспламенения. Особым вниманием работы Холидэя было моделирование данных, взятых из экспериментов отображения механизма. В этих экспериментах скорость вращения двигателя, загрузка и отношение воздуха/топлива считались постоянные, в то время как искра варьировалась. Различные характеристики ответа механизма, например, крутящий момент или количества эмиссии, были измерены при каждой установке искры. Праздник смоделировал характеристики ответа для каждой развертки в зависимости от усовершенствования искры. Изменения отдельных параметров развертки были затем смоделированы в зависимости от глобального механизма рабочая скорость переменных, загрузка и отношение воздуха/топлива. Концептуально, изменения измерений, проведенных в развертке, представляют внутриотдельный компонент отклонения. Точно так же изменение специфичных для развертки параметров между развертками представляет межличностный компонент отклонения. Можно обобщить эти принципы к другим установившимся упражнениям моделирования механизма, где природа сбора данных обычно включает развертку одной переменной управления двигателем, в то время как остаток сохранен в фиксированных значениях. Эти точки предполагают, что нелинейный повторный анализ измерений представляет общий подход параметризации моделей механизмов среднего значения для ориентированной на средства управления разработки.
Другое приложение для моделей этой формы является уравнениями потока для тела дросселя. Принятие уравнений потока основано на обычном одномерном изэнтропическом принципе потока, затем они должны быть изменены термином эффективной площади, Одним, который составляет то, что истинный поток многомерен и необратим. Можно сопоставить характеристики потока дросселя путем развертки положения дросселя при фиксированной скорости вращения двигателя. Эта методология сбора данных естественно налагает иерархию, анализ которой сопоставим с приложением нелинейных повторных измерений. Опыт в моделировании эффективной площади показывает, чтобы свободный сплайн узла или биологические модели роста предоставили хорошие локальные предсказания. Глобальная фаза процедуры моделирования касается предсказания систематического изменения функций ответа через скорость вращения двигателя. Свободная модель сплайна узла оказалась полезной с этой целью.
Моделирование ответов локально в развертке в зависимости от независимой переменной только. Таким образом,
(1) |
то, где индекс i относится к отдельным тестам и j к данным в тесте, является j-ым независимым значением, (rx1) вектор параметра, j th ответ и нормально распределенная случайная переменная с нулевым средним значением и отклонением σ2. Обратите внимание на то, что уравнение (4-1) может быть или линейным или нелинейной функцией параметров подгонки кривой. Предположение о независимо нормально распределенных ошибках подразумевает что оценки методом наименьших квадратов также параметры наибольшего правдоподобия.
Локальная модель описывает и систематическое и случайное изменение, сопоставленное с измерениями, проведенными во время i-ого теста. Систематическое изменение характеризуется через функцию f, в то время как изменение характеризуется через дистрибутивные предположения, сделанные на векторе из случайных ошибок ei. Следовательно, спецификация модели для распределения ei завершает описание внутритестовой модели. Продукт Model-Based Calibration Toolbox™ позволяет очень техническое требование локальной ковариации:
(2) |
то, где Ci (ni x ni) ковариационная матрица, является коэффициентом изменчивости, и ξi является (q-1) вектором из дисперсионных параметров, которые составляют неоднородность отклонения и возможность последовательно сопоставленных данных. Спецификация является очень общей и предоставляет значительную гибкость в терминах определения модели ковариации, чтобы соответственно описать случайный компонент внутритестового изменения.
Поддержка продукта Model-Based Calibration Toolbox следующие модели ковариации:
Модель отклонения степени:
(3) |
Экспоненциальная модель отклонения:
(4) |
Смешанная модель отклонения:
(5) |
где diag {x} является диагональной матрицей.
Модели корреляции только доступны для равномерно расположенных данных в продукте Model-Based Calibration Toolbox. Возможно объединить модели корреляции с моделями с моделями отклонения, такими как степень.
Одна из самых простых структур, которые могут использоваться с учетом последовательно коррелированых ошибок, является AR (m) модель (авторегрессивная модель с задержкой m). Общая форма AR (m) модель
(6) |
то, где k-ой коэффициент задержки и vj, является внешним стохастическим входом тождественно и независимо распределенный как. Сначала - и авторегрессивные модели второго порядка реализованы в продукте Model-Based Calibration Toolbox.
Другая возможность является моделью скользящего среднего значения (MA). Общая структура
(7) |
то, где k-ой коэффициент задержки и vj, является внешним стохастическим входом тождественно и независимо распределенный как. Только модель скользящего среднего значения первого порядка реализована в продукте Model-Based Calibration Toolbox.
С технической точки зрения параметры подгонки кривой обычно не имеют никакой интуитивной интерпретации. Довольно характеристические геометрические функции кривой представляют интерес. Терминология “функции ответа” Crowder и Hand [8] используется, чтобы описать эти геометрические функции интереса. В общем случае характеристический вектор ответа p
i для i-ой развертки - нелинейная функция (g
) из соответствующей кривой соответствуют вектору параметра , таким образом, что
(8) |
Моделирование изменения ответа показывает в зависимости от глобальных переменных. Функции ответа несут до второго этапа процедуры моделирования, а не параметров подгонки кривой, потому что у них есть техническая интерпретация. Это гарантирует, что второй этап процесса моделирования остается относительно интуитивным. Намного более вероятно, что у инженера будет лучшее знание того, как функция ответа, такая как MBT ведет себя в рабочем диапазоне механизма (по крайней мере, на основном базисе эффектов) в противоположность тайной оценке параметра подгонки кривой.
Глобальное отношение представлено одной из глобальных моделей, доступных в продукте Model-Based Calibration Toolbox. В этом разделе мы только рассматриваем линейные модели, которые могут быть представлены как
(9) |
где Кси содержит информацию об условиях работы механизма в i-ой развертке искры, β является вектором из глобальных оценок параметра, которые должны быть оценены подходящей процедурой, и вектор из нормально распределенных случайных ошибок. Необходимо сделать некоторое предположение о распределении ошибок для , и это обычно - нормальное распределение с
(10) |
где r является количеством функций ответа. Размерности D (rxr) и, будучи ковариационной матрицей отклонения, D и симметричен и положительный определенный. Условия на ведущей диагонали D представляют отклонение от теста к тесту, сопоставленное оценкой отдельных функций ответа. Недиагональные условия представляют ковариацию между парами функций ответа. Оценка этих дополнительных условий ковариации в многомерном анализе улучшает точность оценок параметра.
Чтобы объединить эти две модели, сначала необходимо рассмотреть дистрибутивные предположения, имеющие отношение к пи характеристического вектора ответа. Отклонением пи (Var (пи)) дают
(11) |
Ради простоты обозначение σ2Ci должно обозначить Var (пи). Таким образом pii распределяется как
(12) |
где Ci зависит от fi через отклонение и также на gi через преобразование к ответу показывает пи. Два стандартных предположения используются в определении Ci: асимптотическое приближение для отклонения оценок наибольшего правдоподобия и приближение для отклонения функций оценок наибольшего правдоподобия, которое основано на расширении Ряда Тейлора gi. Кроме того, для нелинейного или gi, Ci зависит от неизвестного ; поэтому, мы будем использовать оценку в ее месте. Эти приближения, вероятно, будут хороши в случае, где σ2 мал, или число точек на развертку (ми) является большим. В любом случае мы принимаем, что эти приближения допустимы повсюду.
Мы теперь возвращаемся к проблеме оценки параметра. Примите что независимы от. Затем обеспечение аддитивной ошибки репликации в ответ показывает, функции ответа распределяются как
(13) |
Когда все тесты рассматриваются одновременно, уравнение (6-13) может быть написано в компактной форме
(14) |
где P является вектором, сформированным путем укладки n пи векторов друг на друге, Z является матрицей, сформированной путем укладки n матриц Си, W является диагональю блока взвешивание матрицы с матрицами на диагонали, являющейся σ2Ci+D, и ω является вектором из дисперсионных параметров. Для многомерного нормального распределения (6-14) может быть записана отрицательная логарифмическая функция правдоподобия:
(15) |
Таким образом оценки наибольшего правдоподобия являются векторами βML и ωML, которые минимизируют logL (β,ω). Обычно существуют намного более подходящие параметры, чем дисперсионные параметры; то есть, размерность β намного больше, чем ω. По сути, выгодно сократить количество параметров, вовлеченных в минимизацию logL (β,ω). Ключ должен понять, что уравнение (6-15) условно линейно относительно β. Следовательно, учитывая оценки ω, уравнение (6-15) может дифференцироваться непосредственно относительно β и получившегося обнуленного выражения. Это уравнение может быть решено непосредственно для β можно следующим образом:
(16) |
Ключевой пункт - то, что теперь вероятность зависит только от дисперсионного вектора параметра ω, который, как уже обсуждено имеет только скромные размерности. Если вероятность минимизирована, чтобы дать к ωML, затем, поскольку W (ωML) затем известен, уравнение (6-16) может впоследствии использоваться, чтобы определить βML.
Прежде, чем предпринять минимизацию уравнения 15 (см. Модели 2D Этапа) сначала необходимо установить форму X
i матрицирую. Это эквивалентно установлению глобального выражения для каждой из функций ответа априорно. Одномерная ступенчатая регрессия используется, чтобы выбрать форму глобальной модели для каждой функции ответа. Минимизация соответствующей статистической величины НАЖАТИЯ используется в качестве принципа построения моделей, как задано в Пошагово в Процессе Построения моделей. Базовый принцип - то, что использовавший одномерные методы, чтобы установить возможные модели, методы максимального правдоподобия впоследствии используются, чтобы оценить их параметры.
Первоначальная оценка глобальной ковариации получена с помощью стандартной оценки 2D этапа Steimer и др. [10],
(17) |
где β являются оценками от всех одномерных глобальных моделей. Эта оценка смещается.
Неявный к минимизации уравнения (6-17) то, что D положителен определенный. Это - простой вопрос, чтобы гарантировать это путем отмечания, что D положителен определенный, если и только если существует верхняя треугольная матрица, G, скажем, таким образом что
(18) |
Эта факторизация используется в алгоритме Квазиньютона. В основном, преимущество этого подхода состоит в том, что получившийся поиск в G, в противоположность D, неограничен.
Алгоритм максимизации ожидания является итерационным методом, который сходится к максимальному решению функции правдоподобия. Каждая итерация имеет два шага:
Шаг ожидания — Производит усовершенствованные оценки функций ответа, учитывая текущие оценки параметра.
Шаг максимизации — Получает новые оценки параметров (параметры глобальной модели и ковариационная матрица) для новых функций ответа.
Эти шаги повторяются, пока улучшение значения логарифмической функции правдоподобия не меньше допуска. Детали алгоритма могут быть найдены в [3, Глава 5].
Праздник, T., Проект и Анализ Экспериментов Отображения Engine: Подход 2D Этапа, Ph.D. тезис, Бирмингемский университет, 1995.
Праздник, T., Lawrance, A. J. Дэвис, T. P. Сопоставляющие Engine Эксперименты: Подход Регрессии 2D Этапа, Технометрики, 1998, Издание 40, стр 120-126.
Davidian, M., Giltinan, D. M. нелинейные модели для Repeated Measurement Data, Chapman & Hall, первого выпуска, 1995.
Davidian, M., Giltinan, D. M. Анализ повторных данных об измерении с помощью нелинейной смешанной модели эффектов, Хемометрик и Интеллектуальных Лабораторных Систем, 1993, Издание 20, стр 1-24.
Davidian, M., Giltinan, D. M. Анализ повторных данных об измерении с помощью нелинейной смешанной модели эффектов, Журнала Биофармацевтической Статистики, 1993, Издание 3, часть 1, стр 23-55.
Lindstrom, M. J. Убавляет, D. M. Нелинейные Смешанные Модели Эффектов для Данных о Повторных измерениях, Биометрики, 1990, Издание 46, стр 673-687.
Davidian, M., Giltinan, D. M. Некоторые Простые методы для Оценки Внутриотдельной Изменчивости в Нелинейных Смешанных Моделях Эффектов, Биометрике, 1993, Издание 49, стр 59-73.
Рука, D. J. Crowder, M. J. практический продольный анализ данных, Чепмен и Холл, первый выпуск, 1996.
Франклин, G.F., Пауэлл, степень доктора юридических наук, рабочий, М.Л., цифровое управление динамических систем, Аддисон-Уэсли, второй выпуск, 1990.
Steimer, J.-L., Молоток, A., Golmard, J.L., и Boisvieux, J.F., Альтернатива приближается к оценке населения к фармакокинетическим параметрам: Сравнение с нелинейной смешанной моделью эффекта. Отзывы Метаболизма препарата, 1984, 15, 265-292.
Создавание модели регрессии, которая включает только подмножество общего количества доступных условий, включает компромисс между двумя конфликтными целями:
Увеличение числа условий модели всегда уменьшает Квадратичную невязку Суммы.
Однако вы не хотите столько условий модели, которым вы сверхсоответствуете путем преследования точек и попытки подбирать модель, чтобы сигнализировать о шуме. Это уменьшает прогнозирующее значение вашей модели.
Лучшее уравнение регрессии является тем, которое обеспечивает удовлетворительный компромисс между этими конфликтными целями, по крайней мере, в уме аналитика. Известно, что нет никакого уникального определения лучше всего. Различные критерии построения моделей (например, передайте выбор, обратный выбор, НАЖМИТЕ поиск, пошаговый поиск, Статистическая величина CP Просвирников...) дают к различным моделям. Кроме того, даже если оптимальное значение статистической величины построения моделей найдено, нет никакой гарантии, что получившаяся модель будет оптимальна в любых других из принятых смыслов.
Преимущественно цель создать модель регрессии для калибровки для предсказания будущих наблюдений за средним значением функции ответа. Поэтому цель состоит в том, чтобы выбрать подмножество условий регрессии, таким образом, что НАЖАТИЕ минимизировано. Минимизация НАЖАТИЯ сопоставима с целью получения модели регрессии, которая предусматривает хорошую прогнозирующую возможность по экспериментальному факторному пробелу. Этот подход может быть применен и к полиному и к моделям сплайна. В любом случае процесс построения моделей идентичен.
Матрица регрессии может быть просмотрена в Инструменте Оценки Проекта. Условия в этой матрице задают полную модель. В общем случае пошаговая модель является подмножеством этого набора полного срока.
Все регрессии выполняются с факторами, представленными по их закодированным шкалам (-1,1).
Определения
Символ | Определение |
---|---|
N | Количество точек данных |
p | Количество условий в настоящее время включено в модель |
q | Общее количество возможных параметров модели (q=p+r) |
r | Количество условий, не в настоящее время включенных из модели |
y | (Nx1) вектор отклика |
X | Матрица регрессии. X имеет размерности (Nxq) |
Xp | (Nxp) матрица модели, соответствующая условиям в настоящее время, включен в модель |
Xr | (Nxr) матричное соответствие условиям в настоящее время исключен из модели |
(px1) вектор из коэффициентов модели
| |
PEV | Ошибочное отклонение предсказания
|
Пользовательские пороговые критерии того, чтобы автоматически отклонить условия | |
(Nx1) вектор из предсказанных ответов. | |
e | (Nx1) вектор невязок. |
e (i) | (Nx1) вектор из остаточных значений НАЖАТИЯ. |
H | Матрица шляпы. |
L | (Nx1) вектор из значений рычагов. |
VIF | Факторы инфляции отклонения |
SSE | Ошибочная Сумма квадратов. SSE = e'e |
SSR | Сумма квадратов регрессии. SSE = |
SST | Полная сумма Квадратов. SST = y'y - N |
MSE | Среднеквадратичная погрешность. MSE = SSE / (N-p) |
MSR | Среднее квадратичное регрессии. MSR = SSR/P |
F | F-статистическая-величина. F = MSR/MSE |
MSE (i) | MSE, вычисленный с i-ой точкой, удаленной из набора данных.
|
RMSE | Среднеквадратическая ошибка: стандартное отклонение регрессии. |
СИ | i-ый R-студент или Внешне Масштабированная Невязка Studentized.
|
ri | i-ая Стандартизированная или Внутренне Масштабированная Невязка Studentized.
|
D | Диагностика влияния D повара.
|
SEBETA | (px1) вектор из стандартных погрешностей коэффициента модели.
где |
НАЖАТЬ | Предсказанная Ошибочная Сумма квадратов. НАЖМИТЕ = e' (i) e (i) |
Для больше на НАЖАТИИ и другой отображенной статистике, смотрите статистическую величину НАЖАТИЯ, Инструкции для Выбора Best Model Fit и Pooled Statistics.