Процедура начальной загрузки связала случайные выборки выбора с заменой от набора данных и анализа каждой выборки тот же путь. Выборка с заменой означает, что каждое наблюдение выбрано отдельно наугад из исходного набора данных. Таким образом, конкретная точка данных от исходного набора данных могла появиться многократно в данной выборке начальной загрузки. Число элементов в каждой выборке начальной загрузки равняется числу элементов в исходном наборе данных. Область значений демонстрационных оценок, которые вы получаете, позволяет вам установить неуверенность в количестве, которое вы оцениваете.
Этот пример от Эфрона и Тибширэни сравнивает очки Теста разрешения юридической школы (LSAT) и последующий средний балл (GPA) юридической школы для выборки 15 юридических школ.
load lawdata plot(lsat,gpa,'+') lsline
Наименьшие квадраты соответствуют, строка указывает, что выше очки LSAT идут с более высокой юридической школой GPAs. Но насколько бесспорный это заключение? График обеспечивает некоторую интуицию, но ничто количественное.
Можно вычислить коэффициент корреляции переменных с помощью |corr|function.
rhohat = corr(lsat,gpa)
rhohat = 0.7764
Теперь у вас есть номер, описывающий положительную связь между LSAT и GPA; хотя это может казаться большим, вы все еще не знаете, значительно ли это статистически.
Используя функцию bootstrp
можно передискретизировать lsat
и векторы gpa
так много раз, как вы любите и рассматриваете изменение в получившихся коэффициентах корреляции.
rng default % For reproducibility rhos1000 = bootstrp(1000,'corr',lsat,gpa);
Это передискретизирует lsat
и векторы gpa
1000 раз и вычисляет функцию corr
на каждой выборке. Можно затем построить результат в гистограмме.
histogram(rhos1000,30,'FaceColor',[.8 .8 1])
Почти все оценки лежат на интервале [0.4 1.0].
Часто желательно создать доверительный интервал для оценки параметра в статистических выводах. Используя функцию bootci
, можно использовать начальную загрузку, чтобы получить доверительный интервал для данных gpa
и lsat
.
ci = bootci(5000,@corr,lsat,gpa)
ci = 2×1
0.3319
0.9427
Поэтому 95%-й доверительный интервал для коэффициента корреляции между LSAT и GPA [0.33 0.94]. Это - сильное количественное доказательство, что LSAT и последующий GPA положительно коррелируются. Кроме того, это доказательство не требует никаких сильных предположений о распределении вероятностей коэффициента корреляции.
Несмотря на то, что функция bootci
вычисляет Смещение, Исправленное и ускоренное (BCA) интервал как тип по умолчанию, это также может вычислить различные другие типы доверительных интервалов начальной загрузки, такие как доверительный интервал начальной загрузки studentized.
Подобно начальной загрузке складной нож, который использует передискретизацию, чтобы оценить смещение демонстрационной статистической величины. Иногда это также используется, чтобы оценить стандартную погрешность демонстрационной статистической величины. Складной нож реализован функцией Statistics and Machine Learning Toolbox™ jackknife
.
Складной нож систематически передискретизирует, а не наугад как начальная загрузка делает. Для выборки с точками n
складной нож вычисляет демонстрационную статистику по n
отдельные выборки размера n
-1. Каждая выборка является исходными данными с одним не использованным наблюдением.
В примере начальной загрузки вы измерили неуверенность в оценке коэффициента корреляции. Можно использовать складной нож, чтобы оценить смещение, которое является тенденцией корреляции выборки переоценить или недооценить истинную, неизвестную корреляцию. Сначала вычислите корреляцию выборки на данных.
load lawdata
rhohat = corr(lsat,gpa)
rhohat = 0.7764
Затем вычислите корреляции для выборок складного ножа и вычислите их среднее значение.
rng default; % For reproducibility jackrho = jackknife(@corr,lsat,gpa); meanrho = mean(jackrho)
meanrho = 0.7759
Теперь вычислите оценку смещения.
n = length(lsat); biasrho = (n-1) * (meanrho-rhohat)
biasrho = -0.0065
Корреляция выборки, вероятно, недооценивает истинную корреляцию приблизительно этой суммой.
Для получения информации о вычислении статистики передискретизации параллельно, смотрите Parallel Computing Toolbox™.