exponenta event banner

Статистика повторной выборки

Повторная выборка начальной загрузки

Процедура начальной загрузки включает в себя выбор случайных выборок с заменой из набора данных и одинаковый анализ каждой выборки. Выборка с заменой означает, что каждое наблюдение выбирается отдельно случайным образом из исходного набора данных. Таким образом, конкретная точка данных из исходного набора данных может появиться несколько раз в данном образце начальной загрузки. Количество элементов в каждом образце начальной загрузки равно количеству элементов в исходном наборе данных. Диапазон полученных выборочных оценок позволяет установить неопределенность оцениваемого количества.

Этот пример из Efron и Tibshirani сравнивает баллы теста на поступление в юридическую школу (LSAT) и последующее среднее значение балла юридического факультета (GPA) для выборки из 15 юридических школ.

load lawdata
plot(lsat,gpa,'+')
lsline

Figure contains an axes. The axes contains 2 objects of type line.

Линия подгонки наименьших квадратов указывает на то, что более высокие баллы LSAT идут с GPA высшей юридической школы. Но насколько верен этот вывод? Сюжет обеспечивает некоторую интуицию, но ничего количественного.

Коэффициент корреляции переменных можно вычислить с помощью функции | corr '.

rhohat = corr(lsat,gpa)
rhohat = 0.7764

Теперь у вас есть число, описывающее положительную связь между LSAT и GPA; хотя он может показаться большим, вы все еще не знаете, является ли он статистически значимым.

Использование bootstrp можно выполнить повторную выборку lsat и gpa векторы сколько угодно раз и учитывайте изменение результирующих коэффициентов корреляции.

rng default  % For reproducibility
rhos1000 = bootstrp(1000,'corr',lsat,gpa);

Это приводит к повторным образцам lsat и gpa векторы 1000 раз и вычисляет corr функция на каждом образце. Затем можно построить график результата в гистограмме.

histogram(rhos1000,30,'FaceColor',[.8 .8 1])

Figure contains an axes. The axes contains an object of type histogram.

Почти все оценки лежат на интервале [0,4 1,0].

Часто желательно построить доверительный интервал для оценки параметров в статистических выводах. Использование bootci , вы можете использовать начальную загрузку для получения доверительного интервала для lsat и gpa данные.

ci = bootci(5000,@corr,lsat,gpa)
ci = 2×1

    0.3319
    0.9427

Поэтому 95% доверительный интервал для коэффициента корреляции между LSAT и GPA составляет [0,33 0,94]. Это убедительное количественное доказательство того, что LSAT и последующие GPA положительно коррелируют. Более того, это доказательство не требует каких-либо сильных предположений о распределении вероятности коэффициента корреляции.

Хотя bootci функция вычисляет интервал с поправкой на смещение и ускорением (BCa) в качестве типа по умолчанию, она также может вычислять различные другие типы доверительных интервалов начальной загрузки, такие как изученный доверительный интервал начальной загрузки.

Ресамплинг Джекнайфа

Аналогично начальной загрузке, это jackknife, который использует повторную выборку для оценки смещения выборки статистики. Иногда он также используется для оценки стандартной ошибки выборки статистики. Jackknife реализуется функцией Toolbox™ статистики и машинного обучения jackknife.

Джекнайф производит повторную выборку систематически, а не случайным образом, как это делает загрузочная программа. Для образца с n очки, jackknife вычисляет выборку статистики на n отдельные образцы размера n-1. Каждый образец представляет собой исходные данные с одним пропущенным наблюдением.

В примере начальной загрузки измерена неопределенность при оценке коэффициента корреляции. Вы можете использовать jackknife для оценки смещения, которое является тенденцией выборки корреляции к чрезмерной оценке или недостаточной оценке истинной, неизвестной корреляции. Сначала вычислите выборочную корреляцию данных.

load lawdata
rhohat = corr(lsat,gpa)
rhohat = 0.7764

Затем вычислите корреляции для образцов jackknife и вычислите их среднее значение.

rng default;  % For reproducibility
jackrho = jackknife(@corr,lsat,gpa);
meanrho = mean(jackrho)
meanrho = 0.7759

Теперь вычислите оценку смещения.

n = length(lsat);
biasrho = (n-1) * (meanrho-rhohat)
biasrho = -0.0065

Выборка корреляции, вероятно, недооценивает истинную корреляцию примерно на эту величину.

Поддержка параллельных вычислений для методов ресамплинга

Сведения о параллельном вычислении статистики повторной выборки см. в разделе Параллельные вычисления Toolbox™.