Передискретизация статистики

Загрузите передискретизацию

Процедура начальной загрузки связала случайные выборки выбора с заменой от набора данных и анализа каждой выборки тот же путь. Выборка с заменой означает, что каждое наблюдение выбрано отдельно наугад из исходного набора данных. Таким образом, конкретная точка данных от исходного набора данных могла появиться многократно в данной выборке начальной загрузки. Число элементов в каждой выборке начальной загрузки равняется числу элементов в исходном наборе данных. Область значений демонстрационных оценок, которые вы получаете, позволяет вам установить неопределенность в количестве, которое вы оцениваете.

Этот пример от Эфрона и Тибширэни сравнивает баллы Теста разрешения юридической школы (LSAT) и последующий средний балл (GPA) юридической школы для выборки 15 юридических школ.

load lawdata
plot(lsat,gpa,'+')
lsline

Figure contains an axes object. The axes object contains 2 objects of type line.

Линия метода наименьших квадратов указывает, что выше баллы LSAT идут с более высокой юридической школой GPAs. Но насколько бесспорный это заключение? График обеспечивает некоторую интуицию, но ничто количественное.

Можно вычислить коэффициент корреляции переменных с помощью |corr|function.

rhohat = corr(lsat,gpa)
rhohat = 0.7764

Теперь у вас есть номер, описывающий положительную связь между LSAT и GPA; хотя это может казаться большим, вы все еще не знаете, значительно ли это статистически.

Используя bootstrp функция можно передискретизировать lsat и gpa векторы так много раз, как вы любите и рассматриваете изменение получившихся коэффициентов корреляции.

rng default  % For reproducibility
rhos1000 = bootstrp(1000,'corr',lsat,gpa);

Это передискретизирует lsat и gpa векторы 1000 раз и вычисляют corr функция на каждой выборке. Можно затем построить результат в гистограмме.

histogram(rhos1000,30,'FaceColor',[.8 .8 1])

Figure contains an axes object. The axes object contains an object of type histogram.

Почти все оценки лежат на интервале [0.4 1.0].

Часто желательно создать доверительный интервал для оценки параметра в статистических выводах. Используя bootci функция, можно использовать начальную загрузку, чтобы получить доверительный интервал для lsat и gpa данные.

ci = bootci(5000,@corr,lsat,gpa)
ci = 2×1

    0.3319
    0.9427

Поэтому 95%-й доверительный интервал для коэффициента корреляции между LSAT и GPA [0.33 0.94]. Это - сильное количественное доказательство, что LSAT и последующий GPA положительно коррелируются. Кроме того, это доказательство не требует никаких сильных предположений о вероятностном распределении коэффициента корреляции.

Несмотря на то, что bootci функция вычисляет Смещение, Откорректированное и ускоренное (BCA) интервал как тип по умолчанию, это также может вычислить различные другие типы доверительных интервалов начальной загрузки, такие как доверительный интервал начальной загрузки studentized.

Передискретизация складного ножа

Подобно начальной загрузке складной нож, который использует передискретизацию, чтобы оценить смещение демонстрационной статистической величины. Иногда это также используется, чтобы оценить стандартную погрешность демонстрационной статистической величины. Складной нож реализован функцией Statistics and Machine Learning Toolbox™ jackknife.

Складной нож систематически передискретизирует, а не наугад как начальная загрузка делает. Для выборки с n точки, складной нож вычисляет демонстрационную статистику по n отдельные выборки размера n- 1. Каждая выборка является исходными данными с одним не использованным наблюдением.

В примере начальной загрузки вы измерили неопределенность в оценке коэффициента корреляции. Можно использовать складной нож, чтобы оценить смещение, которое является тенденцией корреляции выборки переоценить или недооценить истинную, неизвестную корреляцию. Сначала вычислите корреляцию выборки на данных.

load lawdata
rhohat = corr(lsat,gpa)
rhohat = 0.7764

Затем вычислите корреляции для выборок складного ножа и вычислите их среднее значение.

rng default;  % For reproducibility
jackrho = jackknife(@corr,lsat,gpa);
meanrho = mean(jackrho)
meanrho = 0.7759

Теперь вычислите оценку смещения.

n = length(lsat);
biasrho = (n-1) * (meanrho-rhohat)
biasrho = -0.0065

Корреляция выборки, вероятно, недооценивает истинную корреляцию приблизительно этой суммой.

Поддержка параллельных вычислений передискретизации методов

Для получения информации о вычислении статистики передискретизации параллельно, смотрите Parallel Computing Toolbox™.