Загрузите образцы данных.
Эти смоделированные данные получены от производственной компании, которая эксплуатирует 50 заводов по всему миру, причем на каждом заводе выполняется пакетный процесс создания готового продукта. Компания хочет уменьшить количество дефектов в каждой партии, поэтому разработала новый производственный процесс. Чтобы проверить эффективность нового процесса, компания выбрала 20 своих заводов случайным образом для участия в эксперименте: Десять заводов реализовали новый процесс, в то время как другие десять продолжали запускать старый процесс. На каждом из 20 заводов компания провела пять партий (всего 100 партий) и записала следующие данные:
Флаг, указывающий, использовала ли партия новый процесс (newprocess)
Время обработки для каждой партии, в часах (time)
Температура партии, в градусах Цельсия (temp)
Категориальная переменная, указывающая поставщика (A, B, или C) химического вещества, используемого в партии (supplier)
Количество дефектов в партии (defects)
Данные также включают time_dev и temp_dev, которые представляют собой абсолютное отклонение времени и температуры соответственно от технологического стандарта 3 часов при 20 градусах Цельсия.
Подгонка обобщенной линейной модели смешанных эффектов с использованием newprocess, time_dev, temp_dev, и supplier в качестве предикторов с фиксированными эффектами. Включить термин случайных эффектов для перехвата, сгруппированного по factory, чтобы учесть различия в качестве, которые могут существовать из-за специфичных для завода вариаций. Переменная ответа defects имеет распределение Пуассона, и соответствующей функцией связи для этой модели является log. Для оценки коэффициентов используется метод аппроксимации Лапласа. Укажите фиктивную кодировку переменной как 'effects'так что фиктивные переменные коэффициенты суммируются до 0.
Количество дефектов можно смоделировать с помощью распределения Пуассона
)
Это соответствует обобщенной линейной модели смешанных эффектов
β5supplier _ Bij + bi,
где
- количество дефектов, наблюдаемых в партии, произведенной заводом во время партии .
- среднее число дефектов, соответствующих заводу (где 20) во время партии j (..., 5).
, и являются измерениями для каждой переменной, которые соответствуют фабрике i во время партии jНапример, указывает, использовала ли партия, произведенная заводом i во время партии j, новый процесс.
и являются фиктивными переменными, которые используют кодирование эффектов (сумма к нулю), чтобы указать, C или B, соответственно, поставлялись технологические химикаты для партии, произведенной заводом во время партии .
startb2) - перехват случайных эффектов для каждой i, который учитывает специфичные для фабрики вариации качества.
glme =
Generalized linear mixed-effects model fit by ML
Model information:
Number of observations 100
Fixed effects coefficients 6
Random effects coefficients 20
Covariance parameters 1
Distribution Poisson
Link Log
FitMethod Laplace
Formula:
defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1 | factory)
Model fit statistics:
AIC BIC LogLikelihood Deviance
416.35 434.58 -201.17 402.35
Fixed effects coefficients (95% CIs):
Name Estimate SE tStat DF pValue
{'(Intercept)'} 1.4689 0.15988 9.1875 94 9.8194e-15
{'newprocess' } -0.36766 0.17755 -2.0708 94 0.041122
{'time_dev' } -0.094521 0.82849 -0.11409 94 0.90941
{'temp_dev' } -0.28317 0.9617 -0.29444 94 0.76907
{'supplier_C' } -0.071868 0.078024 -0.9211 94 0.35936
{'supplier_B' } 0.071072 0.07739 0.91836 94 0.36078
Lower Upper
1.1515 1.7864
-0.72019 -0.015134
-1.7395 1.5505
-2.1926 1.6263
-0.22679 0.083051
-0.082588 0.22473
Random effects covariance parameters:
Group: factory (20 Levels)
Name1 Name2 Type Estimate
{'(Intercept)'} {'(Intercept)'} {'std'} 0.31381
Group: Error
Name Estimate
{'sqrt(Dispersion)'} 1
Выполните F-тест, чтобы определить, равны ли все коэффициенты с фиксированными эффектами 0.
stats =
ANOVA marginal tests: DFMethod = 'residual'
Term FStat DF1 DF2 pValue
{'(Intercept)'} 84.41 1 94 9.8194e-15
{'newprocess' } 4.2881 1 94 0.041122
{'time_dev' } 0.013016 1 94 0.90941
{'temp_dev' } 0.086696 1 94 0.76907
{'supplier' } 0.59212 2 94 0.5552
Значения p для перехвата, newprocess, time_dev, и temp_dev те же, что и в таблице коэффициентов glme дисплей. Небольшие значения p для перехвата и newprocess указывают, что это значимые предикторы на уровне значимости 5%. Большие значения p для time_dev и temp_dev указывают, что они не являются значимыми предикторами на этом уровне.
Значение p 0,5552 для supplier измеряет комбинированную значимость для обоих коэффициентов, представляющих категориальную переменную supplier. Сюда входят фиктивные переменные. supplier_C и supplier_B как показано в таблице коэффициентов glme дисплей. Большое значение p указывает, что supplier не является значимым предиктором на уровне значимости 5%.