Процедура начальной загрузки связала случайные выборки выбора с заменой от набора данных и анализа каждой выборки тот же путь. Выборка с заменой означает, что каждое наблюдение выбрано отдельно наугад из исходного набора данных. Таким образом, конкретная точка данных от исходного набора данных могла появиться многократно в данной выборке начальной загрузки. Число элементов в каждой выборке начальной загрузки равняется числу элементов в исходном наборе данных. Область значений демонстрационных оценок, которые вы получаете, позволяет вам установить неопределенность в количестве, которое вы оцениваете.
Этот пример от Эфрона и Тибширэни сравнивает баллы Теста разрешения юридической школы (LSAT) и последующий средний балл (GPA) юридической школы для выборки 15 юридических школ.
load lawdata plot(lsat,gpa,'+') lsline
Наименьшие квадраты соответствуют, линия указывает, что выше баллы LSAT идут с более высокой юридической школой GPAs. Но насколько бесспорный это заключение? График обеспечивает некоторую интуицию, но ничто количественное.
Можно вычислить коэффициент корреляции переменных с помощью |corr|function.
rhohat = corr(lsat,gpa)
rhohat = 0.7764
Теперь у вас есть номер, описывающий положительную связь между LSAT и GPA; хотя это может казаться большим, вы все еще не знаете, значительно ли это статистически.
Используя bootstrp
функция можно передискретизировать lsat
и gpa
векторы так много раз, как вы любите и рассматриваете изменение получившихся коэффициентов корреляции.
rng default % For reproducibility rhos1000 = bootstrp(1000,'corr',lsat,gpa);
Это передискретизирует lsat
и gpa
векторы 1000 раз и вычисляют corr
функция на каждой выборке. Можно затем построить результат в гистограмме.
histogram(rhos1000,30,'FaceColor',[.8 .8 1])
Почти все оценки лежат на интервале [0.4 1.0].
Часто желательно создать доверительный интервал для оценки параметра в статистических выводах. Используя bootci
функция, можно использовать начальную загрузку, чтобы получить доверительный интервал для lsat
и gpa
данные.
ci = bootci(5000,@corr,lsat,gpa)
ci = 2×1
0.3319
0.9427
Поэтому 95%-й доверительный интервал для коэффициента корреляции между LSAT и GPA [0.33 0.94]. Это - сильное количественное доказательство, что LSAT и последующий GPA положительно коррелируются. Кроме того, это доказательство не требует никаких сильных предположений о вероятностном распределении коэффициента корреляции.
Несмотря на то, что bootci
функция вычисляет Смещение, Откорректированное и ускоренное (BCA) интервал как тип по умолчанию, это также может вычислить различные другие типы доверительных интервалов начальной загрузки, такие как доверительный интервал начальной загрузки studentized.
Подобно начальной загрузке складной нож, который использует передискретизацию, чтобы оценить смещение демонстрационной статистической величины. Иногда это также используется, чтобы оценить стандартную погрешность демонстрационной статистической величины. Складной нож реализован функцией Statistics and Machine Learning Toolbox™ jackknife
.
Складной нож систематически передискретизирует, а не наугад как начальная загрузка делает. Для выборки с n
точки, складной нож вычисляет демонстрационную статистику по n
отдельные выборки размера n
- 1. Каждая выборка является исходными данными с одним не использованным наблюдением.
В примере начальной загрузки вы измерили неопределенность в оценке коэффициента корреляции. Можно использовать складной нож, чтобы оценить смещение, которое является тенденцией корреляции выборки переоценить или недооценить истинную, неизвестную корреляцию. Сначала вычислите корреляцию выборки на данных.
load lawdata
rhohat = corr(lsat,gpa)
rhohat = 0.7764
Затем вычислите корреляции для выборок складного ножа и вычислите их среднее значение.
rng default; % For reproducibility jackrho = jackknife(@corr,lsat,gpa); meanrho = mean(jackrho)
meanrho = 0.7759
Теперь вычислите оценку смещения.
n = length(lsat); biasrho = (n-1) * (meanrho-rhohat)
biasrho = -0.0065
Корреляция выборки, вероятно, недооценивает истинную корреляцию приблизительно этой суммой.
Для получения информации о вычислении статистики передискретизации параллельно, смотрите Parallel Computing Toolbox™.