quantilePredict

Класс: TreeBagger

Предскажите квантиль ответа с помощью мешка деревьев регрессии

Синтаксис

YFit = quantilePredict(Mdl,X)

YFit = quantilePredict(Mdl,X,Name,Value)

[YFit,YW]
= quantilePredict(___)

Описание

пример

YFit = quantilePredict(Mdl,X) возвращает вектор медиан предсказанных ответов в X, таблица или матрица данных о предикторе и использование мешка деревьев регрессии Mdl. Mdl должен быть TreeBagger объект модели.

пример

YFit = quantilePredict(Mdl,X,Name,Value) дополнительные опции использования заданы одним или несколькими Name,Value парные аргументы. Например, задайте вероятности квантиля или который деревья включать для оценки квантиля.

пример

[YFit,YW] = quantilePredict(___) также возвращает разреженную матрицу весов ответа.

Входные параметры

развернуть все

`Mdl` — Мешок деревьев регрессии
`TreeBagger` объект модели (значение по умолчанию)

Мешок деревьев регрессии, заданных как TreeBagger объект модели создается TreeBagger. Значение Mdl.Method должен быть regression.

`X` — Данные о предикторе
числовая матрица | таблица

Данные о предикторе раньше оценивали квантили, заданные как числовая матрица или таблица.

Каждая строка X соответствует одному наблюдению, и каждый столбец соответствует одной переменной.

Для числовой матрицы:
- Переменные, составляющие столбцы X должен иметь тот же порядок как переменные предикторы, которые обучили Mdl.
- Если вы обучили Mdl с помощью таблицы (например, Tbl), затем X может быть числовая матрица если Tbl содержит все числовые переменные предикторы. Если Tbl содержит неоднородные переменные предикторы (например, типы числовых и категориальных данных) и X числовая матрица, затем quantilePredict выдает ошибку.
Для таблицы:
- quantilePredict не поддерживает многостолбцовые переменные и массивы ячеек кроме массивов ячеек из символьных векторов.
- Если вы обучили Mdl с помощью таблицы (например, Tbl), затем все переменные предикторы в X должен иметь те же имена переменных и типы данных как те переменные, которые обучили Mdl (сохраненный в Mdl.PredictorNames). Однако порядок следования столбцов X не должен соответствовать порядку следования столбцов Tbltbl и X может содержать дополнительные переменные (переменные отклика, веса наблюдения, и т.д.), но quantilePredict игнорирует их.
- Если вы обучили Mdl с помощью числовой матрицы затем предиктор называет в Mdl.PredictorNames и соответствующий переменный предиктор называет в X должно быть то же самое. Чтобы задать имена предиктора во время обучения, смотрите PredictorNames аргумент пары "имя-значение" TreeBagger. Все переменные предикторы в X должны быть числовые векторы. X может содержать дополнительные переменные (переменные отклика, веса наблюдения, и т.д.), но quantilePredict игнорирует их.

Типы данных: table | double | single

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

`'Quantile'` — Вероятность квантиля
0.5 (значение по умолчанию) | числовой вектор, содержащий значения в [0,1]

Вероятность квантиля, заданная как разделенная запятой пара, состоящая из 'Quantile' и числовой вектор, содержащий значения в интервале [0,1]. Для каждого наблюдения (строка) в X, quantilePredict возвращает соответствующие квантили для всех вероятностей в Quantile.

Пример: 'Quantile',[0 0.25 0.5 0.75 1]

Типы данных: single | double

`'Trees'` — Индексы деревьев, чтобы использовать в ответ оценку
`'all'` (значение по умолчанию) | числовой вектор положительных целых чисел

Индексы деревьев, чтобы использовать в ответ оценку, заданную как разделенная запятой пара, состоящая из 'Trees' и 'all' или числовой вектор положительных целых чисел. Индексы соответствуют ячейкам Mdl.Trees; каждая ячейка там содержит дерево в ансамбле. Максимальное значение Trees должно быть меньше чем или равно количеству деревьев в ансамбле (Mdl.NumTrees).

\forall, quantilePredict использует индексы 1:Mdl.NumTrees.

Пример: 'Trees',[1 10 Mdl.NumTrees]

Типы данных: char | string | single | double

`'TreeWeights'` — Веса, чтобы приписать ответам от отдельных деревьев
числовой вектор неотрицательных значений

Веса, чтобы приписать ответам от отдельных деревьев, заданных как разделенная запятой пара, состоящая из 'TreeWeights' и числовой вектор numel (trees) неотрицательные значения. trees значение Trees аргумент пары "имя-значение".

Значением по умолчанию являются единицы (размер (trees)).

Типы данных: single | double

`'UseInstanceForTree'` — Индикаторы, задающие, который деревья использовать, чтобы сделать прогнозы для каждого наблюдения
`'all'` (значение по умолчанию) | логическая матрица

Индикаторы, задающие, который деревья использовать, чтобы сделать прогнозы для каждого наблюдения, заданного как разделенная запятой пара, состоящая из 'UseInstanceForTree' и n-by-Mdl.Trees логическая матрица. n является количеством наблюдений (строки) в X. Строки UseInstanceForTree соответствуйте наблюдениям, и столбцы соответствуют ученикам в Mdl.Treesвсе указывает, чтобы использовать все деревья во всех наблюдениях при оценке квантилей.

Если UseInstanceForTree (jK) = true, затем quantilePredict использует дерево в Mdl. Деревья (treesK)) когда это предсказывает ответ для наблюдения X (j,:).

Можно оценить квантиль с помощью данных об ответе в Mdl.Y непосредственно вместо того, чтобы использовать прогнозы от случайного леса путем определения строки, состоявшей полностью из false значения. Например, чтобы оценить квантиль для наблюдения j использование данных об ответе, и использовать прогнозы от случайного леса для всех других наблюдений, задает эту матрицу:

UseInstanceForTree = true(size(Mdl.X,2),Mdl.NumTrees);
UseInstanceForTree(j,:) = false(1,Mdl.NumTrees);

Типы данных: char | string | logical

Выходные аргументы

развернуть все

`YFit` — Предполагаемые квантили
числовая матрица

Предполагаемые квантили, возвращенные как n- numel (tau) числовая матрица. n количество наблюдений в X (size(X,1)) и tau значение Quantile. Таким образом, YFit (jK) предполагаемое 100*tauK)% процентиль распределения ответа, учитывая X (j,:) и использование Mdl.

`YW` — Веса ответа
разреженная матрица

Веса ответа, возвращенные как _ntrain-by-n разреженная матрица. _ntrain является количеством ответов в обучающих данных (numel(Mdl.Y)) и n является количеством наблюдений в X (size(X,1)).

quantilePredict предсказывает квантили с помощью линейной интерполяции эмпирической кумулятивной функции распределения (C.D.F.). Для конкретного наблюдения можно использовать его веса ответа, чтобы оценить квантили с помощью альтернативных методов, таких как аппроксимация C.D.F. использование сглаживания ядра.

Примечание

quantilePredict выводит веса ответа путем передачи наблюдения через деревья в ансамбле. Если вы задаете UseInstanceForTree и вы составляете строку j полностью false значения, затем YW (: J) = Mdl.W вместо этого, то есть, веса наблюдения.

Примеры

развернуть все

Предскажите учебные демонстрационные медианы

Скрипт Open Live Script

Загрузите carsmall набор данных. Рассмотрите модель, которая предсказывает экономию топлива автомобиля, учитывая его объем двигателя.

load carsmall

Обучите ансамбль сложенных в мешок деревьев регрессии с помощью целого набора данных. Задайте 100 слабых учеников.

rng(1); % For reproducibility
Mdl = TreeBagger(100,Displacement,MPG,'Method','regression');

Mdl TreeBagger ансамбль.

Выполните регрессию квантиля, чтобы предсказать средний MPG для всех отсортированных учебных наблюдений.

medianMPG = quantilePredict(Mdl,sort(Displacement));

medianMPG n- 1 числовой вектор медиан, соответствующих условному распределению ответа, учитывая отсортированные наблюдения в DisplacementN количество наблюдений в Displacement.

Постройте наблюдения и предполагаемые медианы на той же фигуре. Сравните средние и средние ответы.

meanMPG = predict(Mdl,sort(Displacement));

figure;
plot(Displacement,MPG,'k.');
hold on
plot(sort(Displacement),medianMPG);
plot(sort(Displacement),meanMPG,'r--');
ylabel('Fuel economy');
xlabel('Engine displacement');
legend('Data','Median','Mean');
hold off;

Оцените интервалы прогноза Используя процентили

Скрипт Open Live Script

load carsmall

rng(1); % For reproducibility
Mdl = TreeBagger(100,Displacement,MPG,'Method','regression');

Выполните регрессию квантиля, чтобы предсказать процентили на 97,5% и на 2,5% для десяти равномерно распределенных объемов двигателя между минимальным и максимальным смещением в выборке.

predX = linspace(min(Displacement),max(Displacement),10)';
quantPredInts = quantilePredict(Mdl,predX,'Quantile',[0.025,0.975]);

quantPredInts 10 2 числовая матрица интервалов прогноза, соответствующих наблюдениям в predX. Первый столбец содержит процентили на 2,5%, и второй столбец содержит процентили на 97,5%.

Постройте наблюдения и предполагаемые медианы на той же фигуре. Сравните интервалы прогноза процентили и 95%-е интервалы прогноза, принимающие условное распределение MPG является Гауссовым.

[meanMPG,steMeanMPG] = predict(Mdl,predX);
stndPredInts = meanMPG + [-1 1]*norminv(0.975).*steMeanMPG;

figure;
h1 = plot(Displacement,MPG,'k.');
hold on
h2 = plot(predX,quantPredInts,'b');
h3 = plot(predX,stndPredInts,'r--');
ylabel('Fuel economy');
xlabel('Engine displacement');
legend([h1,h2(1),h3(1)],{'Data','95% percentile prediction intervals',...
    '95% Gaussian prediction intervals'});
hold off;

Оцените условное кумулятивное распределение Используя регрессию квантиля

Скрипт Open Live Script

load carsmall

rng(1); % For reproducibility
Mdl = TreeBagger(100,Displacement,MPG,'Method','regression');

Оцените веса ответа для случайной выборки четырех учебных наблюдений. Постройте учебную выборку и идентифицируйте выбранные наблюдения.

[predX,idx] = datasample(Mdl.X,4);
[~,YW] = quantilePredict(Mdl,predX);
n = numel(Mdl.Y);

figure;
plot(Mdl.X,Mdl.Y,'o');
hold on
plot(predX,Mdl.Y(idx),'*','MarkerSize',10);
text(predX-10,Mdl.Y(idx)+1.5,{'obs. 1' 'obs. 2' 'obs. 3' 'obs. 4'});
legend('Training Data','Chosen Observations');
xlabel('Engine displacement')
ylabel('Fuel economy')
hold off

YW n- 4 разреженных матрицы, содержащие веса ответа. Столбцы соответствуют тестовым наблюдениям, и строки соответствуют ответам в учебной выборке. Веса ответа независимы от заданной вероятности квантиля.

Оцените условную кумулятивную функцию распределения (C.C.D.F.) ответов:

Сортировка ответов является порядком по возрастанию и затем сортировкой весов ответа с помощью индексов, вызванных путем сортировки ответов.
Вычисление совокупных сумм по каждому столбцу отсортированных весов ответа.

[sortY,sortIdx] = sort(Mdl.Y);
cpdf = full(YW(sortIdx,:));
ccdf = cumsum(cpdf);

ccdf(:,j) эмпирический C.C.D.F. ответа, данного тестовое наблюдение j.

Постройте четыре эмпирических C.C.D.F. в той же фигуре.

figure;
plot(sortY,ccdf);
legend('C.C.D.F. given test obs. 1','C.C.D.F. given test obs. 2',...
    'C.C.D.F. given test obs. 3','C.C.D.F. given test obs. 4',...
    'Location','SouthEast')
title('Conditional Cumulative Distribution Functions')
xlabel('Fuel economy')
ylabel('Empirical CDF')

Больше о

развернуть все

Веса ответа

Response weights является скалярами, которые представляют условное распределение ответа, учитывая значение на пробеле предиктора. Наблюдения в выборках начальной загрузки и листах, что обучение и тестовая доля наблюдений вызывают веса ответа.

Учитывая наблюдение x, вес ответа для наблюдения j в учебном демонстрационном использующем древовидном t в ансамбле

$w_{t j} (x) = \frac{I {X_{j} \in S_{t} (x)}}{\sum_{k = 1}^{n_{обучаться}} I {X_{k} \in S_{t} (x)}},$

где:

I {h} является функцией индикатора.
_St (x) является листом древовидного t, содержащего x.
n _{обучается}, количество учебных наблюдений.

Другими словами, веса ответа конкретного дерева формируют условную относительную плотность распределения из ответа.

Веса ответа для целого ансамбля усреднены по деревьям:

$w_{j}^{*} (x) = \frac{1}{T} \sum_{t = 1}^{T} w_{t j} (x) .$

Квантиль случайный лес

Quantile random forest [2] является методом регрессии квантиля, который использует случайный лес [1] из деревьев регрессии, чтобы смоделировать условное распределение переменной отклика, учитывая значение переменных предикторов. Можно использовать подобранную модель, чтобы оценить квантили в условном распределении ответа.

Помимо оценки квантиля, можно использовать регрессию квантиля, чтобы оценить интервалы прогноза или обнаружить выбросы. Например:

Чтобы оценить 95% интервалов прогноза квантиля, оцените 0,025 и 0,975 квантиля.
Чтобы обнаружить выбросы, оцените 0,01 и 0,99 квантиля. Все наблюдения, меньшие, чем 0,01 квантиля и больше, чем 0,99 квантиля, являются выбросами. Все наблюдения, которые являются вне интервала [L, U], могут быть рассмотрены выбросами:

$L = Q_{1} - 1.5 * I Q R$
и

$U = Q_{3} + 1.5 * I Q R,$
где:
- Q ₁ является 0,25 квантилями.
- Q ₃ является 0,75 квантилями.
- IQR = Q ₃ – Q ₁ (interquartile range).

Советы

quantilePredict оценивает условное распределение ответа с помощью обучающих данных каждый раз, когда вы вызываете его. Чтобы предсказать много квантилей эффективно или квантили для многих наблюдений эффективно, необходимо передать X как матрица или таблица наблюдений и задают все квантили в векторе с помощью Quantile аргумент пары "имя-значение". Таким образом, постарайтесь не вызывать quantilePredict в цикле.

Алгоритмы

TreeBagger выращивает случайный лес деревьев регрессии с помощью обучающих данных. Затем чтобы реализовать квантиль случайный лес, quantilePredict предсказывает квантили с помощью эмпирического условного распределения ответа, учитывая наблюдение от переменных предикторов. Получить эмпирическое условное распределение ответа:
1. quantilePredict передачи все учебные наблюдения в Mdl.X через все деревья в ансамбле и хранилища, вершинами которых учебные наблюдения являются участниками.
2. quantilePredict так же передачи каждое наблюдение в X через все деревья в ансамбле.
3. Для каждого наблюдения в X, quantilePredict:
  1. Оценивает условное распределение ответа вычислительными весами ответа для каждого дерева.
  2. Для наблюдения k в X, агрегировал условные распределения для целого ансамбля:
    
    $\hat{F} (y | X = x_{k}) = \sum_{j = 1}^{n} \sum_{t = 1}^{T} \frac{1}{T} w_{t j} (x_{k}) I {Y_{j} \leq y} .$
    n является количеством учебных наблюдений (size(Y,1)) и T является количеством деревьев в ансамбле (Mdl.NumTrees).
4. Для наблюдения k в X, квантиль τ или, эквивалентно, 100τ процентиль %, $Q_{τ} (x_{k}) = \inf {y : \hat{F} (y | X = x_{k}) \geq τ} .$
Этот процесс описывает как quantilePredict использование все заданные веса.
1. Для всех учебных наблюдений j = 1..., n и все выбранные деревья t = 1..., T,
  quantilePredict приписывает продукт _vtj = _btj w _{j, obs} к учебному наблюдению j (сохраненный в Mdl. X (j,:) и Mdl. Y (j)). _btj является наблюдением числа раз, j находится в выборке начальной загрузки для древовидного t. w _{j, obs} является весом наблюдения в Mdl. W (j).
2. Для каждого выбранного дерева, quantilePredict идентифицирует листы, в которых падает каждое учебное наблюдение. Позвольте _St (_xj) быть набором всех наблюдений, содержавшихся в листе древовидного t, которого наблюдения j является членом.
3. Для каждого выбранного дерева, quantilePredict нормирует все веса в конкретном листе, чтобы суммировать к 1, то есть,
  
  $v_{t j}^{*} = \frac{v_{t j}}{\sum_{i \in S_{t} (x_{j})} v_{t i}} .$
4. Для каждого учебного наблюдения и дерева, quantilePredict включает древовидные веса (w _{t, дерево}) заданный TreeWeights, то есть, w ^*_{tj, дерево} = w _{t, treevtj*Trees} не выбранный для прогноза имеет 0 весов.
5. Для всех тестовых наблюдений k = 1..., K в X и все выбранные деревья t = 1..., T quantilePredict предсказывает уникальные листы, в которых падают наблюдения, и затем идентифицирует все учебные наблюдения в предсказанных листах. quantilePredict приписывает вес _utj, таким образом что
  
  $u_{t j} = {\begin{array}{l} w_{t j, дерево}^{*}; if x_{k} \in S_{t} (x_{j}) \\ 0; otherwise \end{array} .$
6. quantilePredict суммирует веса по всем выбранным деревьям, то есть,
  
  $u_{j} = \sum_{t = 1}^{T} u_{t j} .$
7. quantilePredict создает веса ответа путем нормализации весов так, чтобы они суммировали к 1, то есть,
  
  $w_{j}^{*} = \frac{u_{j}}{\sum_{j = 1}^{n} u_{j}} .$

Ссылки

[1] Бреимен, L. Случайные Леса. Машинное обучение 45, стр 5–32, 2001.

[2] Meinshausen, N. “Леса Регрессии квантиля”. Журнал Исследования Машинного обучения, Издания 7, 2006, стр 983–999.

Темы

Обнаружьте выбросы Используя регрессию квантиля

Документация

quantilePredict

Синтаксис

Описание

Входные параметры

`Mdl` — Мешок деревьев регрессии
`TreeBagger` объект модели (значение по умолчанию)

`X` — Данные о предикторе
числовая матрица | таблица

Аргументы в виде пар имя-значение

`'Quantile'` — Вероятность квантиля
0.5 (значение по умолчанию) | числовой вектор, содержащий значения в [0,1]

`'Trees'` — Индексы деревьев, чтобы использовать в ответ оценку
`'all'` (значение по умолчанию) | числовой вектор положительных целых чисел

`'TreeWeights'` — Веса, чтобы приписать ответам от отдельных деревьев
числовой вектор неотрицательных значений

`'UseInstanceForTree'` — Индикаторы, задающие, который деревья использовать, чтобы сделать прогнозы для каждого наблюдения
`'all'` (значение по умолчанию) | логическая матрица

Выходные аргументы

`YFit` — Предполагаемые квантили
числовая матрица

`YW` — Веса ответа
разреженная матрица

Примечание

Примеры

Предскажите учебные демонстрационные медианы

Оцените интервалы прогноза Используя процентили

Оцените условное кумулятивное распределение Используя регрессию квантиля

Больше о

Веса ответа

Квантиль случайный лес

Советы

Алгоритмы

Ссылки

Смотрите также

Темы

Введенный в R2017b

Документация Statistics and Machine Learning Toolbox

Поддержка

Документация

quantilePredict

Синтаксис

Описание

Входные параметры

Mdl — Мешок деревьев регрессии TreeBagger объект модели (значение по умолчанию)

X — Данные о предикторе числовая матрица | таблица

Аргументы в виде пар имя-значение

'Quantile' — Вероятность квантиля0.5 (значение по умолчанию) | числовой вектор, содержащий значения в [0,1]

'Trees' — Индексы деревьев, чтобы использовать в ответ оценку 'all' (значение по умолчанию) | числовой вектор положительных целых чисел

'TreeWeights' — Веса, чтобы приписать ответам от отдельных деревьев числовой вектор неотрицательных значений

'UseInstanceForTree' — Индикаторы, задающие, который деревья использовать, чтобы сделать прогнозы для каждого наблюдения 'all' (значение по умолчанию) | логическая матрица

Выходные аргументы

YFit — Предполагаемые квантили числовая матрица

YW — Веса ответа разреженная матрица

Примечание

Примеры

Предскажите учебные демонстрационные медианы

Оцените интервалы прогноза Используя процентили

Оцените условное кумулятивное распределение Используя регрессию квантиля

Больше о

Веса ответа

Квантиль случайный лес

Советы

Алгоритмы

Ссылки

Смотрите также

Темы

Введенный в R2017b

Документация Statistics and Machine Learning Toolbox

Поддержка

`Mdl` — Мешок деревьев регрессии
`TreeBagger` объект модели (значение по умолчанию)

`X` — Данные о предикторе
числовая матрица | таблица

`'Quantile'` — Вероятность квантиля
0.5 (значение по умолчанию) | числовой вектор, содержащий значения в [0,1]

`'Trees'` — Индексы деревьев, чтобы использовать в ответ оценку
`'all'` (значение по умолчанию) | числовой вектор положительных целых чисел

`'TreeWeights'` — Веса, чтобы приписать ответам от отдельных деревьев
числовой вектор неотрицательных значений

`'UseInstanceForTree'` — Индикаторы, задающие, который деревья использовать, чтобы сделать прогнозы для каждого наблюдения
`'all'` (значение по умолчанию) | логическая матрица

`YFit` — Предполагаемые квантили
числовая матрица

`YW` — Веса ответа
разреженная матрица