Статистика повторной выборки

Повторная выборка начальной загрузки

Процедура начальной загрузки включает в себя выбор случайных выборок с заменой из набора данных и одинаковый анализ каждой выборки. Выборка с заменой означает, что каждое наблюдение выбирается отдельно случайным образом из исходного набора данных. Таким образом, конкретная точка данных из исходного набора данных может появиться несколько раз в данном образце начальной загрузки. Количество элементов в каждом образце начальной загрузки равно количеству элементов в исходном наборе данных. Диапазон полученных выборочных оценок позволяет установить неопределенность оцениваемого количества.

Этот пример из Efron и Tibshirani сравнивает баллы теста на поступление в юридическую школу (LSAT) и последующее среднее значение балла юридического факультета (GPA) для выборки из 15 юридических школ.

load lawdata
plot(lsat,gpa,'+')
lsline

Figure contains an axes. The axes contains 2 objects of type line.

Линия подгонки наименьших квадратов указывает на то, что более высокие баллы LSAT идут с GPA высшей юридической школы. Но насколько верен этот вывод? Сюжет обеспечивает некоторую интуицию, но ничего количественного.

Коэффициент корреляции переменных можно вычислить с помощью функции | corr '.

rhohat = corr(lsat,gpa)

rhohat = 0.7764

Теперь у вас есть число, описывающее положительную связь между LSAT и GPA; хотя он может показаться большим, вы все еще не знаете, является ли он статистически значимым.

Использование bootstrp можно выполнить повторную выборку lsat и gpa векторы сколько угодно раз и учитывайте изменение результирующих коэффициентов корреляции.

rng default  % For reproducibility
rhos1000 = bootstrp(1000,'corr',lsat,gpa);

Это приводит к повторным образцам lsat и gpa векторы 1000 раз и вычисляет corr функция на каждом образце. Затем можно построить график результата в гистограмме.

histogram(rhos1000,30,'FaceColor',[.8 .8 1])

Figure contains an axes. The axes contains an object of type histogram.

Почти все оценки лежат на интервале [0,4 1,0].

Часто желательно построить доверительный интервал для оценки параметров в статистических выводах. Использование bootci , вы можете использовать начальную загрузку для получения доверительного интервала для lsat и gpa данные.

ci = bootci(5000,@corr,lsat,gpa)

Поэтому 95% доверительный интервал для коэффициента корреляции между LSAT и GPA составляет [0,33 0,94]. Это убедительное количественное доказательство того, что LSAT и последующие GPA положительно коррелируют. Более того, это доказательство не требует каких-либо сильных предположений о распределении вероятности коэффициента корреляции.

Хотя bootci функция вычисляет интервал с поправкой на смещение и ускорением (BCa) в качестве типа по умолчанию, она также может вычислять различные другие типы доверительных интервалов начальной загрузки, такие как изученный доверительный интервал начальной загрузки.

Ресамплинг Джекнайфа

Открыть сценарий в реальном времени

Аналогично начальной загрузке, это jackknife, который использует повторную выборку для оценки смещения выборки статистики. Иногда он также используется для оценки стандартной ошибки выборки статистики. Jackknife реализуется функцией Toolbox™ статистики и машинного обучения jackknife.

Джекнайф производит повторную выборку систематически, а не случайным образом, как это делает загрузочная программа. Для образца с n очки, jackknife вычисляет выборку статистики на n отдельные образцы размера n-1. Каждый образец представляет собой исходные данные с одним пропущенным наблюдением.

В примере начальной загрузки измерена неопределенность при оценке коэффициента корреляции. Вы можете использовать jackknife для оценки смещения, которое является тенденцией выборки корреляции к чрезмерной оценке или недостаточной оценке истинной, неизвестной корреляции. Сначала вычислите выборочную корреляцию данных.

load lawdata
rhohat = corr(lsat,gpa)

rhohat = 0.7764

Затем вычислите корреляции для образцов jackknife и вычислите их среднее значение.

rng default;  % For reproducibility
jackrho = jackknife(@corr,lsat,gpa);
meanrho = mean(jackrho)

meanrho = 0.7759

Теперь вычислите оценку смещения.

n = length(lsat);
biasrho = (n-1) * (meanrho-rhohat)

biasrho = -0.0065

Выборка корреляции, вероятно, недооценивает истинную корреляцию примерно на эту величину.

Поддержка параллельных вычислений для методов ресамплинга

Сведения о параллельном вычислении статистики повторной выборки см. в разделе Параллельные вычисления Toolbox™.

Документация