Процедура начальной загрузки включает в себя выбор случайных выборок с заменой из набора данных и одинаковый анализ каждой выборки. Выборка с заменой означает, что каждое наблюдение выбирается отдельно случайным образом из исходного набора данных. Таким образом, конкретная точка данных из исходного набора данных может появиться несколько раз в данном образце начальной загрузки. Количество элементов в каждом образце начальной загрузки равно количеству элементов в исходном наборе данных. Диапазон полученных выборочных оценок позволяет установить неопределенность оцениваемого количества.
Этот пример из Efron и Tibshirani сравнивает баллы теста на поступление в юридическую школу (LSAT) и последующее среднее значение балла юридического факультета (GPA) для выборки из 15 юридических школ.
load lawdata plot(lsat,gpa,'+') lsline

Линия подгонки наименьших квадратов указывает на то, что более высокие баллы LSAT идут с GPA высшей юридической школы. Но насколько верен этот вывод? Сюжет обеспечивает некоторую интуицию, но ничего количественного.
Коэффициент корреляции переменных можно вычислить с помощью функции | corr '.
rhohat = corr(lsat,gpa)
rhohat = 0.7764
Теперь у вас есть число, описывающее положительную связь между LSAT и GPA; хотя он может показаться большим, вы все еще не знаете, является ли он статистически значимым.
Использование bootstrp можно выполнить повторную выборку lsat и gpa векторы сколько угодно раз и учитывайте изменение результирующих коэффициентов корреляции.
rng default % For reproducibility rhos1000 = bootstrp(1000,'corr',lsat,gpa);
Это приводит к повторным образцам lsat и gpa векторы 1000 раз и вычисляет corr функция на каждом образце. Затем можно построить график результата в гистограмме.
histogram(rhos1000,30,'FaceColor',[.8 .8 1])
Почти все оценки лежат на интервале [0,4 1,0].
Часто желательно построить доверительный интервал для оценки параметров в статистических выводах. Использование bootci , вы можете использовать начальную загрузку для получения доверительного интервала для lsat и gpa данные.
ci = bootci(5000,@corr,lsat,gpa)
ci = 2×1
0.3319
0.9427
Поэтому 95% доверительный интервал для коэффициента корреляции между LSAT и GPA составляет [0,33 0,94]. Это убедительное количественное доказательство того, что LSAT и последующие GPA положительно коррелируют. Более того, это доказательство не требует каких-либо сильных предположений о распределении вероятности коэффициента корреляции.
Хотя bootci функция вычисляет интервал с поправкой на смещение и ускорением (BCa) в качестве типа по умолчанию, она также может вычислять различные другие типы доверительных интервалов начальной загрузки, такие как изученный доверительный интервал начальной загрузки.
Аналогично начальной загрузке, это jackknife, который использует повторную выборку для оценки смещения выборки статистики. Иногда он также используется для оценки стандартной ошибки выборки статистики. Jackknife реализуется функцией Toolbox™ статистики и машинного обучения jackknife.
Джекнайф производит повторную выборку систематически, а не случайным образом, как это делает загрузочная программа. Для образца с n очки, jackknife вычисляет выборку статистики на n отдельные образцы размера n-1. Каждый образец представляет собой исходные данные с одним пропущенным наблюдением.
В примере начальной загрузки измерена неопределенность при оценке коэффициента корреляции. Вы можете использовать jackknife для оценки смещения, которое является тенденцией выборки корреляции к чрезмерной оценке или недостаточной оценке истинной, неизвестной корреляции. Сначала вычислите выборочную корреляцию данных.
load lawdata
rhohat = corr(lsat,gpa)rhohat = 0.7764
Затем вычислите корреляции для образцов jackknife и вычислите их среднее значение.
rng default; % For reproducibility jackrho = jackknife(@corr,lsat,gpa); meanrho = mean(jackrho)
meanrho = 0.7759
Теперь вычислите оценку смещения.
n = length(lsat); biasrho = (n-1) * (meanrho-rhohat)
biasrho = -0.0065
Выборка корреляции, вероятно, недооценивает истинную корреляцию примерно на эту величину.
Сведения о параллельном вычислении статистики повторной выборки см. в разделе Параллельные вычисления Toolbox™.