Эмпирические, пользовательские и полунъюгатные предыдущие модели дают аналитически трудноразрешимые апостериорные распределения (подробнее см. Аналитически трудноразрешимые апостериоры). Чтобы суммировать апостериорное распределение для оценки и вывода, первая модель требует выборки Монте-Карло, в то время как две последние модели требуют выборки Маркова-Чена-Монте-Карло (MCMC). При оценке апостериоров с использованием выборки Монте-Карло, особенно выборки MCMC, вы можете столкнуться с проблемами, приводящими к выборкам, которые неадекватно представляют или не суммируют заднее распределение. В этом случае оценки и выводы, основанные на задних розыгрышах, могут быть неверными.
Даже если задняя часть является аналитически отслеживаемой или ваш образец MCMC представляет истинную заднюю лунку, ваш выбор предыдущего распределения может повлиять на заднее распределение нежелательными способами. Например, небольшое изменение предыдущего распределения, такое как небольшое увеличение значения предыдущего гиперпараметра, может оказать большое влияние на задние оценки или выводы. Если апостериор чувствителен к предыдущим предположениям, то интерпретации статистики и выводы, основанные на апостериоре, могут ввести в заблуждение.
Поэтому после получения заднего распределения из алгоритма выборки важно определить качество выборки. Кроме того, независимо от того, является ли задняя часть аналитически прослеживаемой, важно проверить, насколько чувствительна задняя часть к предположениям предыдущего распределения.
При рисовании образца MCMC рекомендуется рисовать более мелкую пилотную выборку, а затем просматривать графики трассировки значений нарисованных параметров, чтобы проверить, является ли образец адекватным. Графики трассировки - это графики значений нарисованных параметров относительно индекса моделирования. Удовлетворительный образец MCMC быстро достигает стационарного распределения и хорошо смешивается, то есть исследует распределение широкими шагами с небольшим или отсутствием памяти о предыдущем розыгрыше. Эта цифра является примером удовлетворительного образца MCMC.

Этот список описывает проблемные характеристики выборок MCMC, дает пример того, что искать на графике трассировки, и описывает, как решить проблему.
Образец MCMC, по-видимому, перемещается в стационарное распределение, то есть отображает переходное поведение.

Чтобы устранить проблему, воспользуйтесь одним из следующих способов:
Укажите начальные значения для параметров, которые ближе к среднему значению стационарного распределения, или укажите значение, которое ожидается в заднем направлении, используя BetaStart и Sigma2Start аргументы пары имя-значение.
Укажите период горения, то есть число рисует, начиная с начала, чтобы удалить из задней оценки, используя BurnIn аргумент пары имя-значение. Период горения должен быть достаточно большим, чтобы оставшийся образец напоминал удовлетворительный образец MCMC, и достаточно малым, чтобы отрегулированный размер образца был достаточно большим.
Выборка MCMC отображает высокую последовательную корреляцию. Следующие рисунки представляют собой графики трассировки и графики автокорреляционной функции (ACF) (см. autocorr).


График следов показывает, что последующие образцы, по-видимому, являются функцией прошлых образцов. График ACF указывает на процесс с высокой автокорреляцией.
Такие образцы MCMC плохо смешиваются и занимают много времени, чтобы в достаточной степени исследовать распределение. Попробуйте выполнить следующие действия:
Если у вас достаточно ресурсов, то оценки на основе больших выборок MCMC примерно верны.
Чтобы уменьшить высокую автокорреляцию, можно сохранить часть образца MCMC путем прореживания с помощью Thin аргумент пары имя-значение.
Для пользовательских предыдущих моделей попробуйте использовать другой образец с помощью 'Sampler' аргумент пары имя-значение. Чтобы настроить параметры настройки пробоотборника, создайте структуру опций пробоотборника с помощью sampleroptions, которая позволяет задать образец и значения для его параметров настройки. Затем передайте структуру опций пробоотборника в estimate, simulate, или forecast с помощью 'Options' аргумент пары имя-значение.
Образец MCMC переходит из состояния в состояние.

На графике показаны подприборы, центрированные по значениям 2, –7, и 5, которые хорошо смешиваются. Это поведение может указывать на одно из следующих качеств:
По крайней мере один из параметров не идентифицируется. Возможно, вам придется реформировать свою модель и предположения.
Могут возникнуть проблемы с кодированием вашего семплера Гиббса.
Стационарное распределение является мультимодальным. В этом примере вероятность нахождения в состоянии с центром в –7 самый высокий, за ним следует 2, а затем 5. Вероятность выхода из состояния с центром на 7 низко.
Если ваш предыдущий является сильным, а размер выборки небольшой, то вы можете увидеть этот тип образца MCMC, что не обязательно проблематично.
Марковская цепь не сходится к своему стационарному распределению.

Кривая выглядит как случайная прогулка, потому что MCMC медленно исследует задний. Если эта проблема возникает, то апостериорные оценки, основанные на выборке MCMC, неверны. Чтобы устранить проблему, попробуйте использовать следующие методы:
Если у вас достаточно ресурсов, нарисуйте еще много образцов, а затем определите, оседает ли в итоге цепочка и незначительно ли смешивается. Если он действительно оседает и относительно хорошо перемешивается, то удаляют начальную часть образца и рассматривают возможность прореживания остальной части образца. Например, предположим, что вы рисуете 20000 образцы цепи на рисунке, и тогда вы обнаружите, что цепь оседает вокруг -3 после 7000 розыгрыши. Можно обрабатывать розыгрыши 1:7000 при горении (BurnIn), а затем тонкий (Thin) остальные траты для достижения удовлетворительного уровня автокорреляции.
Репарамеризируйте предыдущее распределение. При оценке customblm объекты модели, можно задать репараметризацию дисперсии возмущения к шкале журнала с помощью Reparameterize аргумент пары имя-значение.
Для пользовательских предыдущих моделей попробуйте использовать другой образец с помощью 'Sampler' аргумент пары имя-значение. Чтобы настроить параметры настройки пробоотборника, создайте структуру опций пробоотборника с помощью sampleroptions, которая позволяет задать образец и значения для его параметров настройки. Затем передайте структуру опций пробоотборника в estimate, simulate, или forecast с помощью 'Options' аргумент пары имя-значение.
В дополнение к графикам трассировки и ACF, estimate, simulate, и forecast оценить эффективный размер выборки. Если эффективный размер выборки составляет менее 1% от числа наблюдений, то эти функции выдают предупреждения. Для получения дополнительной информации см. [1].
Анализ чувствительности включает в себя определение того, насколько устойчивы апостериорные оценки к предшествующим предположениям и предположениям о распределении данных. То есть цель состоит в том, чтобы узнать, как замена начальных значений и предыдущих предположений разумными альтернативами влияет на апостериорное распределение и выводы. Если задние и выводы не сильно различаются относительно применения, то задние устойчивы к предыдущим предположениям и начальным значениям. Апостериоры и выводы, которые существенно различаются с различными исходными предположениями, могут привести к неправильным интерпретациям.
Для выполнения анализа чувствительности:
Определите набор разумных предыдущих моделей. Включить диффузный (diffuseblm) модели и субъективные (conjugateblm или semiconjugateblm) модели, которые легче интерпретировать и позволяют включать предыдущую информацию.
Для каждой из предыдущих моделей определите набор вероятных значений гиперпараметров. Например, для нормальных-обратно-гамма-сопряженных или полунъюгатных предыдущих моделей выберите различные значения для предшествующей средней и ковариационной матрицы коэффициентов регрессии и параметров формы и масштаба обратного гамма-распределения дисперсии возмущений. Дополнительные сведения см. в разделе Mu, V, A, и B аргументы пары имя-значение bayeslm.
Для всех предыдущих предположений модели:
Сравните оценки и выводы между моделями.
Если все оценки и выводы достаточно похожи, то задний является надежным.
Если оценки или выводы достаточно отличаются, то может возникнуть некоторая основная проблема с выбранными приорами или вероятностью данных. Поскольку структура байесовской линейной регрессии в Econometrics Toolbox™ всегда предполагает, что данные являются гауссовыми, рассмотрим:
Добавление или удаление переменных предиктора из регрессионной модели
Сделать приоры более информативными
Совершенно другие предыдущие допущения
Подробнее об анализе чувствительности см. [2], гл. 6.
[1] Geyer, C. J. «Практическая марковская цепочка Монте-Карло». Статистическая наука. Том 7, 1992, стр. 473-483.
[2] Гельман, А., Дж. Б. Карлин, Х. С. Стерн и Д. Б. Рубин. Байесовский анализ данных, 2-й. Эд. Бока Ратон, FL: Chapman & Hall/CRC, 2004.
estimate | forecast | simulate