Передискретизация статистики

Загрузите передискретизацию

Процедура начальной загрузки связала случайные выборки выбора с заменой от набора данных и анализа каждой выборки тот же путь. Выборка с заменой означает, что каждое наблюдение выбрано отдельно наугад из исходного набора данных. Таким образом, конкретная точка данных от исходного набора данных могла появиться многократно в данной выборке начальной загрузки. Число элементов в каждой выборке начальной загрузки равняется числу элементов в исходном наборе данных. Область значений демонстрационных оценок, которые вы получаете, позволяет вам установить неуверенность в количестве, которое вы оцениваете.

Этот пример от Эфрона и Тибширэни сравнивает очки Теста разрешения юридической школы (LSAT) и последующий средний балл (GPA) юридической школы для выборки 15 юридических школ.

load lawdata
plot(lsat,gpa,'+')
lsline

Наименьшие квадраты соответствуют, строка указывает, что выше очки LSAT идут с более высокой юридической школой GPAs. Но насколько бесспорный это заключение? График обеспечивает некоторую интуицию, но ничто количественное.

Можно вычислить коэффициент корреляции переменных с помощью |corr|function.

rhohat = corr(lsat,gpa)

rhohat = 0.7764

Теперь у вас есть номер, описывающий положительную связь между LSAT и GPA; хотя это может казаться большим, вы все еще не знаете, значительно ли это статистически.

Используя функцию bootstrp можно передискретизировать lsat и векторы gpa так много раз, как вы любите и рассматриваете изменение в получившихся коэффициентах корреляции.

rng default  % For reproducibility
rhos1000 = bootstrp(1000,'corr',lsat,gpa);

Это передискретизирует lsat и векторы gpa 1000 раз и вычисляет функцию corr на каждой выборке. Можно затем построить результат в гистограмме.

histogram(rhos1000,30,'FaceColor',[.8 .8 1])

Почти все оценки лежат на интервале [0.4 1.0].

Часто желательно создать доверительный интервал для оценки параметра в статистических выводах. Используя функцию bootci, можно использовать начальную загрузку, чтобы получить доверительный интервал для данных gpa и lsat.

ci = bootci(5000,@corr,lsat,gpa)

Поэтому 95%-й доверительный интервал для коэффициента корреляции между LSAT и GPA [0.33 0.94]. Это - сильное количественное доказательство, что LSAT и последующий GPA положительно коррелируются. Кроме того, это доказательство не требует никаких сильных предположений о распределении вероятностей коэффициента корреляции.

Несмотря на то, что функция bootci вычисляет Смещение, Исправленное и ускоренное (BCA) интервал как тип по умолчанию, это также может вычислить различные другие типы доверительных интервалов начальной загрузки, такие как доверительный интервал начальной загрузки studentized.

Передискретизация складного ножа

Скрипт Open Live Script

Подобно начальной загрузке складной нож, который использует передискретизацию, чтобы оценить смещение демонстрационной статистической величины. Иногда это также используется, чтобы оценить стандартную погрешность демонстрационной статистической величины. Складной нож реализован функцией Statistics and Machine Learning Toolbox™ jackknife.

Складной нож систематически передискретизирует, а не наугад как начальная загрузка делает. Для выборки с точками n складной нож вычисляет демонстрационную статистику по n отдельные выборки размера n-1. Каждая выборка является исходными данными с одним не использованным наблюдением.

В примере начальной загрузки вы измерили неуверенность в оценке коэффициента корреляции. Можно использовать складной нож, чтобы оценить смещение, которое является тенденцией корреляции выборки переоценить или недооценить истинную, неизвестную корреляцию. Сначала вычислите корреляцию выборки на данных.

load lawdata
rhohat = corr(lsat,gpa)

rhohat = 0.7764

Затем вычислите корреляции для выборок складного ножа и вычислите их среднее значение.

rng default;  % For reproducibility
jackrho = jackknife(@corr,lsat,gpa);
meanrho = mean(jackrho)

meanrho = 0.7759

Теперь вычислите оценку смещения.

n = length(lsat);
biasrho = (n-1) * (meanrho-rhohat)

biasrho = -0.0065

Корреляция выборки, вероятно, недооценивает истинную корреляцию приблизительно этой суммой.

Поддержка параллельных вычислений передискретизации методов

Для получения информации о вычислении статистики передискретизации параллельно, смотрите Parallel Computing Toolbox™.

Документация