oobQuantilePredict

Класс: TreeBagger

Квантильные прогнозы для наблюдений вне пакета из пакета деревьев регрессии

развернуть все на странице

Синтаксис

YFit = oobQuantilePredict (Mdl)

YFit = oobQuantilePredict (Mdl, имя, значение)

[YFit, YW] = oobQuantilePredict (___)

Описание

пример

YFit = oobQuantilePredict(Mdl) возвращает вектор медиан предсказанных ответов при всех наблюдениях вне пакета в Mdl.X, данные предиктора и использование Mdl, который представляет собой мешок регрессионных деревьев. Mdl должно быть TreeBagger объект модели и Mdl.OOBIndices должен быть непустым.

пример

YFit = oobQuantilePredict(Mdl,Name,Value) использует дополнительные параметры, указанные одним или несколькими Name,Value аргументы пары. Например, укажите вероятности квантилей или деревья, которые следует включить для оценки квантилей.

пример

[YFit,YW] = oobQuantilePredict(___) также возвращает разреженную матрицу весов отклика с использованием любого из предыдущих синтаксисов.

Входные аргументы

развернуть все

`Mdl` - Мешок регрессионных деревьев
`TreeBagger` объект модели (по умолчанию)

Мешок регрессионных деревьев, указанный как TreeBagger объект модели, созданный TreeBagger.

Значение Mdl.Method должно быть regression.
Когда тренируешься Mdl использование TreeBagger, необходимо указать пару имя-значение 'OOBPrediction','on'. Следовательно, TreeBagger сохраняет требуемую матрицу индекса наблюдения вне пакета в Mdl.OOBIndices.

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

`'Quantile'` - вероятность квантиля
`0.5` (по умолчанию) | числовой вектор, содержащий значения в [0,1]

Вероятность квантиля, указанная как пара, разделенная запятыми, состоящая из 'Quantile' и числовой вектор, содержащий значения в интервале [0,1]. Для каждого наблюдения (строка) в Mdl.X, oobQuantilePredict оценивает соответствующие квантили для всех вероятностей в Quantile.

Пример: 'Quantile',[0 0.25 0.5 0.75 1]

Типы данных: single | double

`'Trees'` - индексы деревьев, используемые при оценке ответов;
`'all'` (по умолчанию) | числовой вектор положительных целых чисел

Индексы деревьев для использования при оценке ответа, определяемые как разделенная запятыми пара, состоящая из 'Trees' и 'all' или числовой вектор положительных целых чисел. Индексы соответствуют ячейкам Mdl.Trees; каждая ячейка содержит дерево в ансамбле. Максимальное значение Trees должно быть меньше или равно количеству деревьев в ансамбле (Mdl.NumTrees).

Для 'all', oobQuantilePredict использует индексы 1:Mdl.NumTrees.

Пример: 'Trees',[1 10 Mdl.NumTrees]

Типы данных: char | string | single | double

`'TreeWeights'` - Веса для отнесения к ответам отдельных деревьев
числовой вектор неотрицательных значений

Веса для присвоения откликам отдельных деревьев, указанных как разделенная запятыми пара, состоящая из 'TreeWeights' и числовой вектор numel(trees) неотрицательные значения. trees - значение Trees аргумент пары имя-значение.

Значение по умолчанию: ones(size(trees)).

Типы данных: single | double

Выходные аргументы

развернуть все

`YFit` - Оценочные квантили
числовая матрица

Оцененные квантили для внеплановых наблюдений, возвращенные как nоколо-numel(tau) числовая матрица. n - количество наблюдений в данных обучения (numel(Mdl.Y)) и tau - значение Quantile аргумент пары имя-значение. То есть YFit(j,k) является оценочным 100*tau(k) процентиль указанного распределения ответа X(j,:) и использование Mdl.

`YW` - Веса ответа
разреженная матрица

Весовые коэффициенты отклика, возвращаемые в виде разреженной матрицы n-by-n. n - количество ответов в данных обучения (numel(Mdl.Y)). YW(:,j) определяет веса ответа для наблюдения в Mdl.X(j,:).

oobQuantilePredict предсказывает квантили с использованием линейной интерполяции эмпирической кумулятивной функции распределения (cdf). Для определенного наблюдения можно использовать его веса отклика для оценки квантилей с помощью альтернативных методов, таких как аппроксимация cdf с помощью сглаживания ядра.

Примеры

развернуть все

Прогнозирование устаревших медианов с помощью квантовой регрессии

Открыть сценарий в реальном времени

Загрузить carsmall набор данных. Рассмотрим модель, которая предсказывает экономию топлива (в МПГ) автомобиля, учитывая его рабочий объем двигателя.

load carsmall

Обучение ансамбля пакетных регрессионных деревьев с использованием всего набора данных. Укажите 100 слабых учеников и сохраните индексы вне сумки.

rng(1); % For reproducibility
Mdl = TreeBagger(100,Displacement,MPG,'Method','regression',...
    'OOBPrediction','on');

Mdl является TreeBagger ансамбль.

Выполните квантильную регрессию, чтобы предсказать медианную экономию топлива вне мешка для всех учебных наблюдений.

oobMedianMPG = oobQuantilePredict(Mdl);

oobMedianMPG является n-по-1 числовой вектор медиан, соответствующий условному распределению ответа при отсортированных наблюдениях в Mdl.X. n - количество наблюдений, size(Mdl.X,1).

Сортировка наблюдений в порядке возрастания. Постройте график наблюдений и оценочных медианов на одной фигуре. Сравните медиану из мешка и среднее значение ответов.

[sX,idx] = sort(Mdl.X);
oobMeanMPG = oobPredict(Mdl);

figure;
plot(Displacement,MPG,'k.');
hold on
plot(sX,oobMedianMPG(idx));
plot(sX,oobMeanMPG(idx),'r--');
ylabel('Fuel economy');
xlabel('Engine displacement');
legend('Data','Out-of-bag median','Out-of-bag mean');
hold off;

Figure contains an axes. The axes contains 3 objects of type line. These objects represent Data, Out-of-bag median, Out-of-bag mean.

Оценка интервалов прогнозирования за пределами пакета с использованием процентилей

Открыть сценарий в реальном времени

Загрузить carsmall набор данных. Рассмотрим модель, которая предсказывает экономию топлива автомобиля (в МПГ), учитывая его рабочий объем двигателя.

load carsmall

rng(1); % For reproducibility
Mdl = TreeBagger(100,Displacement,MPG,'Method','regression',...
    'OOBPrediction','on');

Выполните регрессию квантиля, чтобы спрогнозировать нерабочие 2,5% и 97,5% процентилей.

oobQuantPredInts = oobQuantilePredict(Mdl,'Quantile',[0.025,0.975]);

oobQuantPredInts является n-на-2 числовая матрица интервалов прогнозирования, соответствующих наблюдениям вне пакета в Mdl.X. n - количество наблюдений, size(Mdl.X,1). Первый столбец содержит 2,5% процентилей, а второй столбец содержит 97,5% процентилей.

Постройте график наблюдений и оценочных медианов на одной фигуре. Сравните интервалы предсказания процентиля и интервалы предсказания 95%, предполагая условное распределение MPG Гауссов.

[oobMeanMPG,oobSTEMeanMPG] = oobPredict(Mdl);
STDNPredInts = oobMeanMPG + [-1 1]*norminv(0.975).*oobSTEMeanMPG;
[sX,idx] = sort(Mdl.X);

figure;
h1 = plot(Displacement,MPG,'k.');
hold on
h2 = plot(sX,oobQuantPredInts(idx,:),'b');
h3 = plot(sX,STDNPredInts(idx,:),'r--');
ylabel('Fuel economy');
xlabel('Engine displacement');
legend([h1,h2(1),h3(1)],{'Data','95% percentile prediction intervals',...
    '95% Gaussian prediction intervals'});
hold off;

Figure contains an axes. The axes contains 5 objects of type line. These objects represent Data, 95% percentile prediction intervals, 95% Gaussian prediction intervals.

Оценка несвоевременного условного кумулятивного распределения с использованием квантовой регрессии

Открыть сценарий в реальном времени

load carsmall

Обучение ансамбля пакетных регрессионных деревьев с использованием всего набора данных. Укажите 100 слабых учеников и сохраните индексы вне пакета.

rng(1); % For reproducibility
Mdl = TreeBagger(100,Displacement,MPG,'Method','regression',...
    'OOBPrediction','on');

Оценка весов отклика вне пакета.

[~,YW] = oobQuantilePredict(Mdl);

YW представляет собой n-на-n разреженную матрицу, содержащую веса отклика. n - количество учебных наблюдений, numel(Y). Веса ответа для наблюдения в Mdl.X(j,:) находятся в YW(:,j). Веса ответа не зависят от любых заданных вероятностей квантилей.

Оценить выходящую из пакета условную кумулятивную функцию распределения (ccdf) ответов с помощью:

Сортировка ответов выполняется в порядке возрастания, а затем сортировка весов ответов с использованием индексов, вызванных сортировкой ответов.
Вычисление совокупных сумм по каждому столбцу отсортированных весов ответа.

[sortY,sortIdx] = sort(Mdl.Y);
cpdf = full(YW(sortIdx,:));
ccdf = cumsum(cpdf);

ccdf(:,j) - эмпирическое внеплощадочное ccdf ответа, учитывая наблюдение j.

Выберите случайную выборку из четырех учебных наблюдений. Постройте график обучающей выборки и определите выбранные наблюдения.

[randX,idx] = datasample(Mdl.X,4);
figure;
plot(Mdl.X,Mdl.Y,'o');
hold on
plot(randX,Mdl.Y(idx),'*','MarkerSize',10);
text(randX-10,Mdl.Y(idx)+1.5,{'obs. 1' 'obs. 2' 'obs. 3' 'obs. 4'});
legend('Training Data','Chosen Observations');
xlabel('Engine displacement')
ylabel('Fuel economy')
hold off

Figure contains an axes. The axes contains 6 objects of type line, text. These objects represent Training Data, Chosen Observations.

Постройте график вне пакета ccdf для четырех выбранных ответов на том же рисунке.

figure;
plot(sortY,ccdf(:,idx));
legend('ccdf given obs. 1','ccdf given obs. 2',...
    'ccdf given obs. 3','ccdf given obs. 4',...
    'Location','SouthEast')
title('Out-of-Bag Conditional Cumulative Distribution Functions')
xlabel('Fuel economy')
ylabel('Empirical CDF')

Figure contains an axes. The axes with title Out-of-Bag Conditional Cumulative Distribution Functions contains 4 objects of type line. These objects represent ccdf given obs. 1, ccdf given obs. 2, ccdf given obs. 3, ccdf given obs. 4.

Подробнее

развернуть все

Вне упаковки

В пакетированном ансамбле наблюдения не в мешках, когда они оставлены вне учебного образца для конкретного учащегося. Наблюдения проводятся в мешках, когда они используются для обучения конкретного учащегося.

При фасовке учащихся в мешки практик берет выборку начальной загрузки (то есть случайную выборку с заменой) размера n для каждого учащегося, а затем обучает учеников, используя их соответствующие выборки начальной загрузки. Извлечение n из n наблюдений с заменой пропускает в среднем около 37% наблюдений для каждого учащегося.

Ошибка ансамбля вне мешка, ошибка ансамбля, оцененная только с помощью наблюдений вне мешка, является непредвзятой оценкой истинной ошибки ансамбля.

Случайный лес квантиля

Квантильный случайный лес [2] - это метод квантильной регрессии, который использует случайный лес [1] деревьев регрессии для моделирования условного распределения переменной отклика, учитывая значение прогнозирующих переменных. Для оценки квантилей в условном распределении ответа можно использовать подобранную модель.

Помимо квантовой оценки, можно использовать квантовую регрессию для оценки интервалов прогнозирования или обнаружения отклонений. Например:

Чтобы оценить 95% интервалов квантования, оцените 0,025 и 0,975 квантилей.
Чтобы обнаружить отклонения, оцените квантили 0,01 и 0,99. Все наблюдения, меньшие, чем квантиль 0,01, и превышающие квантиль 0,99, являются отклонениями. Все наблюдения, которые находятся вне интервала [L, U], могут считаться отклонениями:

$L =_{} Q1 − 1,5$ * IQR
и

$U =_{} Q3 + 1,5$ * IQR,
где:
- Q1 - квантиль 0,25.
- Q3 - квантиль 0,75.
- IQR = Q3 - Q1 (межквартильный диапазон).

Веса ответа

Весовые коэффициенты отклика представляют собой скаляры, которые представляют условное распределение отклика, заданное значением в пространстве предиктора. Наблюдения в выборках начальной загрузки и листья, которые общие для тренировочных и тестовых наблюдений, индуцируют вес ответа.

Учитывая наблюдение x, вес ответа для наблюдения j в обучающей выборке с использованием дерева t в ансамбле составляет

$_{wtj} (x) \frac{_{}_{} =I{Xj∈St (}{x_{)}}^{_{}}_{}_{} \sumk=1ntrainI{Xk\inSt}$ (x)},

где:

I {h} - функция индикатора.
_St (x) - лист дерева t, содержащий x.
ntrain - количество тренировочных наблюдений.

Другими словами, веса отклика конкретного дерева образуют условное относительное частотное распределение отклика.

Веса отклика для всего ансамбля усредняются по деревьям:

$_{}^{wj*} (x) \frac{}{}_{}^{}_{} =1T∑t=1Twtj ($ x).

Алгоритмы

oobQuantilePredict оценивает вне пакета квантилей, применяя quantilePredict ко всем наблюдениям в данных обучения (Mdl.X). Для каждого наблюдения в методе используются только деревья, для которых наблюдение выходит из-под контроля.

Для наблюдений, которые находятся в мешке для всех деревьев в ансамбле, oobQuantilePredict назначает выборку квантования данных ответа. Другими словами, oobQuantilePredict не использует квантильную регрессию для внеплановых наблюдений. Вместо этого он назначает quantile(Mdl.Y,tau), где tau - значение Quantile аргумент пары имя-значение.

Ссылки

[1] Мейнсхаузен, Н. «Квантильные регрессионные леса». Журнал исследований машинного обучения, том 7, 2006, стр. 983-999.

[2] Брейман, Л. «Случайные леса». Машинное обучение. Том 45, 2001, стр. 5-32.

См. также

oobQuantileError | predict | quantilePredict | TreeBagger

Темы

Оценка условного квантиля с использованием сглаживания ядра

Представлен в R2016b

Документация

oobQuantilePredict

Синтаксис

Описание

Входные аргументы

`Mdl` - Мешок регрессионных деревьев
`TreeBagger` объект модели (по умолчанию)

Аргументы пары «имя-значение»

`'Quantile'` - вероятность квантиля
`0.5` (по умолчанию) | числовой вектор, содержащий значения в [0,1]

`'Trees'` - индексы деревьев, используемые при оценке ответов;
`'all'` (по умолчанию) | числовой вектор положительных целых чисел

`'TreeWeights'` - Веса для отнесения к ответам отдельных деревьев
числовой вектор неотрицательных значений

Выходные аргументы

`YFit` - Оценочные квантили
числовая матрица

`YW` - Веса ответа
разреженная матрица

Примеры

Прогнозирование устаревших медианов с помощью квантовой регрессии

Оценка интервалов прогнозирования за пределами пакета с использованием процентилей

Оценка несвоевременного условного кумулятивного распределения с использованием квантовой регрессии

Подробнее

Вне упаковки

Случайный лес квантиля

Веса ответа

Алгоритмы

Ссылки

См. также

Темы

Документация по инструментам для статистического и машинного обучения

Поддержка

Документация

oobQuantilePredict

Синтаксис

Описание

Входные аргументы

Mdl - Мешок регрессионных деревьев TreeBagger объект модели (по умолчанию)

Аргументы пары «имя-значение»

'Quantile' - вероятность квантиля 0.5 (по умолчанию) | числовой вектор, содержащий значения в [0,1]

'Trees' - индексы деревьев, используемые при оценке ответов; 'all' (по умолчанию) | числовой вектор положительных целых чисел

'TreeWeights' - Веса для отнесения к ответам отдельных деревьев числовой вектор неотрицательных значений

Выходные аргументы

YFit - Оценочные квантили числовая матрица

YW - Веса ответа разреженная матрица

Примеры

Прогнозирование устаревших медианов с помощью квантовой регрессии

Оценка интервалов прогнозирования за пределами пакета с использованием процентилей

Оценка несвоевременного условного кумулятивного распределения с использованием квантовой регрессии

Подробнее

Вне упаковки

Случайный лес квантиля

Веса ответа

Алгоритмы

Ссылки

См. также

Темы

Документация по инструментам для статистического и машинного обучения

Поддержка

`Mdl` - Мешок регрессионных деревьев
`TreeBagger` объект модели (по умолчанию)

`'Quantile'` - вероятность квантиля
`0.5` (по умолчанию) | числовой вектор, содержащий значения в [0,1]

`'Trees'` - индексы деревьев, используемые при оценке ответов;
`'all'` (по умолчанию) | числовой вектор положительных целых чисел

`'TreeWeights'` - Веса для отнесения к ответам отдельных деревьев
числовой вектор неотрицательных значений

`YFit` - Оценочные квантили
числовая матрица

`YW` - Веса ответа
разреженная матрица