oobQuantilePredict

Класс: TreeBagger

Прогнозы квантиля для наблюдений из сумки от мешка деревьев регрессии

Синтаксис

YFit = oobQuantilePredict(Mdl)

YFit = oobQuantilePredict(Mdl,Name,Value)

[YFit,YW]
= oobQuantilePredict(___)

Описание

пример

YFit = oobQuantilePredict(Mdl) возвращает вектор медиан предсказанных ответов при всех наблюдениях из сумки в Mdl.X, данные о предикторе и использование Mdl, который является мешком деревьев регрессии. Mdl должен быть TreeBagger объект модели и Mdl.OOBIndices mustBeNonempty.

пример

YFit = oobQuantilePredict(Mdl,Name,Value) дополнительные опции использования заданы одним или несколькими Name,Value парные аргументы. Например, задайте вероятности квантиля или деревья, чтобы включать для оценки квантиля.

пример

[YFit,YW] = oobQuantilePredict(___) также возвращает разреженную матрицу весов ответа с помощью любого из предыдущих синтаксисов.

Входные параметры

развернуть все

`Mdl` — Мешок деревьев регрессии
`TreeBagger` объект модели (значение по умолчанию)

Мешок деревьев регрессии, заданных как TreeBagger объект модели создается TreeBagger.

Значение Mdl.Method должен быть regression.
Когда вы обучаете Mdl использование TreeBagger, необходимо задать пару "имя-значение" 'OOBPrediction','on'. Следовательно, TreeBagger сохраняет требуемую матрицу индекса наблюдения из сумки в Mdl.OOBIndices.

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

`'Quantile'` — Вероятность квантиля
0.5 (значение по умолчанию) | числовой вектор, содержащий значения в [0,1]

Вероятность квантиля, заданная как разделенная запятой пара, состоящая из 'Quantile' и числовой вектор, содержащий значения в интервале [0,1]. Для каждого наблюдения (строка) в Mdl.X, oobQuantilePredict оценки соответствующие квантили для всех вероятностей в Quantile.

Пример: 'Quantile',[0 0.25 0.5 0.75 1]

Типы данных: single | double

`'Trees'` — Индексы деревьев, чтобы использовать в ответ оценку
`'all'` (значение по умолчанию) | числовой вектор положительных целых чисел

Индексы деревьев, чтобы использовать в ответ оценку, заданную как разделенная запятой пара, состоящая из 'Trees' и 'all' или числовой вектор положительных целых чисел. Индексы соответствуют ячейкам Mdl.Trees; каждая ячейка там содержит дерево в ансамбле. Максимальное значение Trees должно быть меньше чем или равно количеству деревьев в ансамбле (Mdl.NumTrees).

\forall, oobQuantilePredict использует индексы 1:Mdl.NumTrees.

Пример: 'Trees',[1 10 Mdl.NumTrees]

Типы данных: char | string | single | double

`'TreeWeights'` — Веса, чтобы приписать ответам от отдельных деревьев
числовой вектор неотрицательных значений

Веса, чтобы приписать ответам от отдельных деревьев, заданных как разделенная запятой пара, состоящая из 'TreeWeights' и числовой вектор numel (trees) неотрицательные значения. trees значение Trees аргумент пары "имя-значение".

Значением по умолчанию являются единицы (размер (trees)).

Типы данных: single | double

Выходные аргументы

развернуть все

`YFit` — Предполагаемые квантили
числовая матрица

Предполагаемые квантили для наблюдений из сумки, возвращенных как n- numel (tau) числовая матрица. n количество наблюдений в обучающих данных (numel(Mdl.Y)) и tau значение Quantile аргумент пары "имя-значение". Таким образом, YFit (jK) предполагаемое 100*tauK) процентиль распределения ответа, учитывая X (j,:) и использование Mdl.

`YW` — Веса ответа
разреженная матрица

Веса ответа, возвращенные как n-by-n разреженная матрица. n является количеством ответов в обучающих данных (numel(Mdl.Y)). YW (: J) задает веса ответа для наблюдения в Mdl. X (j,:).

oobQuantilePredict предсказывает квантили с помощью линейной интерполяции эмпирической кумулятивной функции распределения (cdf). Для конкретного наблюдения можно использовать его веса ответа, чтобы оценить квантили с помощью альтернативных методов, таких как аппроксимация cdf использование сглаживания ядра.

Примеры

развернуть все

Предскажите медианы из сумки Используя регрессию квантиля

Скрипт Open Live Script

Загрузите carsmall набор данных. Рассмотрите модель, которая предсказывает экономию топлива (в MPG) автомобиля, учитывая его объем двигателя.

load carsmall

Обучите ансамбль сложенных в мешок деревьев регрессии с помощью целого набора данных. Задайте 100 слабых учеников и сохраните индексы из сумки.

rng(1); % For reproducibility
Mdl = TreeBagger(100,Displacement,MPG,'Method','regression',...
    'OOBPrediction','on');

Mdl TreeBagger ансамбль.

Выполните регрессию квантиля, чтобы предсказать среднюю экономию топлива из сумки для всех учебных наблюдений.

oobMedianMPG = oobQuantilePredict(Mdl);

oobMedianMPG n- 1 числовой вектор медиан, соответствующих условному распределению ответа, учитывая отсортированные наблюдения в Mdl.XN количество наблюдений, size(Mdl.X,1).

Сортировка наблюдений в порядке возрастания. Постройте наблюдения и предполагаемые медианы на той же фигуре. Сравните средние и средние ответы из сумки.

[sX,idx] = sort(Mdl.X);
oobMeanMPG = oobPredict(Mdl);

figure;
plot(Displacement,MPG,'k.');
hold on
plot(sX,oobMedianMPG(idx));
plot(sX,oobMeanMPG(idx),'r--');
ylabel('Fuel economy');
xlabel('Engine displacement');
legend('Data','Out-of-bag median','Out-of-bag mean');
hold off;

Оцените интервалы прогноза из сумки Используя процентили

Скрипт Open Live Script

Загрузите carsmall набор данных. Рассмотрите модель, которая предсказывает экономию топлива автомобиля (в MPG), учитывая его объем двигателя.

load carsmall

rng(1); % For reproducibility
Mdl = TreeBagger(100,Displacement,MPG,'Method','regression',...
    'OOBPrediction','on');

Выполните регрессию квантиля, чтобы предсказать процентили на 97,5% и на 2,5% из сумки.

oobQuantPredInts = oobQuantilePredict(Mdl,'Quantile',[0.025,0.975]);

oobQuantPredInts n- 2 числовых матрицы интервалов прогноза, соответствующих наблюдениям из сумки в Mdl.XN количество наблюдений, size(Mdl.X,1). Первый столбец содержит процентили на 2,5%, и второй столбец содержит процентили на 97,5%.

Постройте наблюдения и предполагаемые медианы на той же фигуре. Сравните интервалы прогноза процентили и 95% интервалов прогноза, приняв условное распределение MPG является Гауссовым.

[oobMeanMPG,oobSTEMeanMPG] = oobPredict(Mdl);
STDNPredInts = oobMeanMPG + [-1 1]*norminv(0.975).*oobSTEMeanMPG;
[sX,idx] = sort(Mdl.X);

figure;
h1 = plot(Displacement,MPG,'k.');
hold on
h2 = plot(sX,oobQuantPredInts(idx,:),'b');
h3 = plot(sX,STDNPredInts(idx,:),'r--');
ylabel('Fuel economy');
xlabel('Engine displacement');
legend([h1,h2(1),h3(1)],{'Data','95% percentile prediction intervals',...
    '95% Gaussian prediction intervals'});
hold off;

Оцените условное кумулятивное распределение из сумки Используя регрессию квантиля

Скрипт Open Live Script

load carsmall

rng(1); % For reproducibility
Mdl = TreeBagger(100,Displacement,MPG,'Method','regression',...
    'OOBPrediction','on');

Оцените веса ответа из сумки.

[~,YW] = oobQuantilePredict(Mdl);

YW n на n разреженная матрица, содержащая веса ответа. n количество учебных наблюдений, numel(Y). Веса ответа для наблюдения в Mdl.X(j,:) находятся в YW(:,j). Веса ответа независимы от любых заданных вероятностей квантиля.

Оцените условную кумулятивную функцию распределения из сумки (ccdf) ответов:

Сортировка ответов является порядком по возрастанию и затем сортировкой весов ответа с помощью индексов, вызванных путем сортировки ответов.
Вычисление совокупных сумм по каждому столбцу отсортированных весов ответа.

[sortY,sortIdx] = sort(Mdl.Y);
cpdf = full(YW(sortIdx,:));
ccdf = cumsum(cpdf);

ccdf(:,j) эмпирический ccdf из сумки ответа, учитывая наблюдение j.

Выберите случайную выборку четырех учебных наблюдений. Постройте учебную выборку и идентифицируйте выбранные наблюдения.

[randX,idx] = datasample(Mdl.X,4);
figure;
plot(Mdl.X,Mdl.Y,'o');
hold on
plot(randX,Mdl.Y(idx),'*','MarkerSize',10);
text(randX-10,Mdl.Y(idx)+1.5,{'obs. 1' 'obs. 2' 'obs. 3' 'obs. 4'});
legend('Training Data','Chosen Observations');
xlabel('Engine displacement')
ylabel('Fuel economy')
hold off

Постройте ccdf из сумки для четырех выбранных ответов в той же фигуре.

figure;
plot(sortY,ccdf(:,idx));
legend('ccdf given obs. 1','ccdf given obs. 2',...
    'ccdf given obs. 3','ccdf given obs. 4',...
    'Location','SouthEast')
title('Out-of-Bag Conditional Cumulative Distribution Functions')
xlabel('Fuel economy')
ylabel('Empirical CDF')

Больше о

развернуть все

Из сумки

В уволенном ансамбле наблюдениями является out-of-bag, когда они упущены из учебной выборки для конкретного ученика. Наблюдениями является in-bag, когда они используются, чтобы обучить конкретного ученика.

При увольнении учеников практик берет выборку начальной загрузки (то есть, случайная выборка с заменой) размера n для каждого ученика, и затем обучает учеников, использующих их соответствующие выборки начальной загрузки. Вытягивание n из наблюдений n с заменой не использует в среднем приблизительно 37% наблюдений для каждого ученика.

Ошибка ансамбля из сумки, ошибка ансамбля, оцененная с помощью наблюдений из сумки только, является несмещенным средством оценки истинной ошибки ансамбля.

Квантиль случайный лес

Quantile random forest [2] является методом регрессии квантиля, который использует случайный лес [1] из деревьев регрессии, чтобы смоделировать условное распределение переменной отклика, учитывая значение переменных предикторов. Можно использовать подобранную модель, чтобы оценить квантили в условном распределении ответа.

Помимо оценки квантиля, можно использовать регрессию квантиля, чтобы оценить интервалы прогноза или обнаружить выбросы. Например:

Чтобы оценить 95% интервалов прогноза квантиля, оцените 0,025 и 0,975 квантиля.
Чтобы обнаружить выбросы, оцените 0,01 и 0,99 квантиля. Все наблюдения, меньшие, чем 0,01 квантиля и больше, чем 0,99 квантиля, являются выбросами. Все наблюдения, которые являются вне интервала [L, U], могут быть рассмотрены выбросами:

$L = Q_{1} - 1.5 * I Q R$
и

$U = Q_{3} + 1.5 * I Q R,$
где:
- Q ₁ является 0,25 квантилями.
- Q ₃ является 0,75 квантилями.
- IQR = Q ₃ – Q ₁ (interquartile range).

Веса ответа

Response weights является скалярами, которые представляют условное распределение ответа, учитывая значение на пробеле предиктора. Наблюдения в выборках начальной загрузки и листах, что обучение и тестовая доля наблюдений вызывают веса ответа.

Учитывая наблюдение x, вес ответа для наблюдения j в учебном демонстрационном использующем древовидном t в ансамбле

$w_{t j} (x) = \frac{I {X_{j} \in S_{t} (x)}}{\sum_{k = 1}^{n_{обучаться}} I {X_{k} \in S_{t} (x)}},$

где:

I {h} является функцией индикатора.
_St (x) является листом древовидного t, содержащего x.
n _{обучается}, количество учебных наблюдений.

Другими словами, веса ответа конкретного дерева формируют условную относительную плотность распределения из ответа.

Веса ответа для целого ансамбля усреднены по деревьям:

$w_{j}^{*} (x) = \frac{1}{T} \sum_{t = 1}^{T} w_{t j} (x) .$

Алгоритмы

oobQuantilePredict оценки квантили из сумки путем применения quantilePredict ко всем наблюдениям в обучающих данных (Mdl.X). Для каждого наблюдения метод использует только деревья, для которых наблюдение из сумки.

Для наблюдений, которые в сумке для всех деревьев в ансамбле, oobQuantilePredict присваивает демонстрационный квантиль данных об ответе. Другими словами, oobQuantilePredict не использует регрессию квантиля в наблюдениях из сумки. Вместо этого это присваивает квантиль (Mdl. Y, tau), где tau значение Quantile аргумент пары "имя-значение".

Ссылки

[1] Meinshausen, N. “Леса Регрессии квантиля”. Журнал Исследования Машинного обучения, Издания 7, 2006, стр 983–999.

[2] Бреимен, L. “Случайные Леса”. Машинное обучение. Издание 45, 2001, стр 5–32.

Темы

Условная оценка квантиля Используя сглаживание ядра

Документация

oobQuantilePredict

Синтаксис

Описание

Входные параметры

`Mdl` — Мешок деревьев регрессии
`TreeBagger` объект модели (значение по умолчанию)

Аргументы в виде пар имя-значение

`'Quantile'` — Вероятность квантиля
0.5 (значение по умолчанию) | числовой вектор, содержащий значения в [0,1]

`'Trees'` — Индексы деревьев, чтобы использовать в ответ оценку
`'all'` (значение по умолчанию) | числовой вектор положительных целых чисел

`'TreeWeights'` — Веса, чтобы приписать ответам от отдельных деревьев
числовой вектор неотрицательных значений

Выходные аргументы

`YFit` — Предполагаемые квантили
числовая матрица

`YW` — Веса ответа
разреженная матрица

Примеры

Предскажите медианы из сумки Используя регрессию квантиля

Оцените интервалы прогноза из сумки Используя процентили

Оцените условное кумулятивное распределение из сумки Используя регрессию квантиля

Больше о

Из сумки

Квантиль случайный лес

Веса ответа

Алгоритмы

Ссылки

Смотрите также

Темы

Введенный в R2017b

Документация Statistics and Machine Learning Toolbox

Поддержка

Документация

oobQuantilePredict

Синтаксис

Описание

Входные параметры

Mdl — Мешок деревьев регрессии TreeBagger объект модели (значение по умолчанию)

Аргументы в виде пар имя-значение

'Quantile' — Вероятность квантиля0.5 (значение по умолчанию) | числовой вектор, содержащий значения в [0,1]

'Trees' — Индексы деревьев, чтобы использовать в ответ оценку 'all' (значение по умолчанию) | числовой вектор положительных целых чисел

'TreeWeights' — Веса, чтобы приписать ответам от отдельных деревьев числовой вектор неотрицательных значений

Выходные аргументы

YFit — Предполагаемые квантили числовая матрица

YW — Веса ответа разреженная матрица

Примеры

Предскажите медианы из сумки Используя регрессию квантиля

Оцените интервалы прогноза из сумки Используя процентили

Оцените условное кумулятивное распределение из сумки Используя регрессию квантиля

Больше о

Из сумки

Квантиль случайный лес

Веса ответа

Алгоритмы

Ссылки

Смотрите также

Темы

Введенный в R2017b

Документация Statistics and Machine Learning Toolbox

Поддержка

`Mdl` — Мешок деревьев регрессии
`TreeBagger` объект модели (значение по умолчанию)

`'Quantile'` — Вероятность квантиля
0.5 (значение по умолчанию) | числовой вектор, содержащий значения в [0,1]

`'Trees'` — Индексы деревьев, чтобы использовать в ответ оценку
`'all'` (значение по умолчанию) | числовой вектор положительных целых чисел

`'TreeWeights'` — Веса, чтобы приписать ответам от отдельных деревьев
числовой вектор неотрицательных значений

`YFit` — Предполагаемые квантили
числовая матрица

`YW` — Веса ответа
разреженная матрица