relieff

Оцените важность использования предикторов алгоритм RReliefF или ReliefF

Синтаксис

[idx,weights] = relieff(X,y,k)

[idx,weights] = relieff(X,y,k,Name,Value)

Описание

[idx,weights] = relieff(X,y,k) предикторы рангов с помощью или алгоритма ReliefF или RReliefF с k самые близкие соседи. Входная матрица X содержит переменные предикторы и векторный y содержит вектор отклика. Функция возвращает idx, который содержит индексы самых важных предикторов и weights, который содержит веса предикторов.

Если y isnumeric, relieff выполняет анализ RReliefF для регрессии по умолчанию. В противном случае, relieff выполняет анализ ReliefF для классификации с помощью k самые близкие соседи в классе. Для получения дополнительной информации о ReliefF и RReliefF, см. Алгоритмы.

пример

[idx,weights] = relieff(X,y,k,Name,Value) задает дополнительные опции с помощью одного или нескольких аргументов пары "имя-значение". Например, 'updates',10 определяет номер наблюдений, случайным образом выбранных для вычислительных весов к 10.

Примеры

свернуть все

Определите важные предикторы

Скрипт Open Live Script

Загрузите выборочные данные.

load fisheriris

Найдите важные предикторы с помощью 10 самых близких соседей.

[idx,weights] = relieff(meas,species,10)

idx = 1×4

     4     3     1     2

weights = 1×4

    0.1399    0.1226    0.3590    0.3754

idx показывает числа предиктора, перечисленные согласно их рейтингу. Четвертый предиктор является самым важным, и второй предиктор наименее важен. weights дает значения веса в том же порядке как предикторы. Первый предиктор имеет вес 0,1399, и четвертый предиктор имеет вес 0,3754.

Оцените предикторы важностью

Скрипт Open Live Script

Загрузите выборочные данные.

load ionosphere

Оцените предикторы на основе важности с помощью 10 самых близких соседей.

[idx,weights] = relieff(X,Y,10);

Создайте столбиковую диаграмму весов важности предиктора.

bar(weights(idx))
xlabel('Predictor rank')
ylabel('Predictor importance weight')

Figure contains an axes object. The axes object contains an object of type bar.

Выберите лучшие 5 самых важных предикторов. Найдите столбцы этих предикторов в X.

idx(1:5)

ans = 1×5

    24     3     8     5    14

24-й столбец X самый важный предиктор Y.

Определите важные категориальные предикторы

Скрипт Open Live Script

Оцените категориальные предикторы с помощью relieff.

Загрузите выборочные данные.

load carbig

Преобразуйте категориальные переменные предикторы Mfg, Model, и Origin к численным значениям, и комбинируют их во входную матрицу. Задайте переменную отклика MPG.

X = [grp2idx(Mfg) grp2idx(Model) grp2idx(Origin)];
y = MPG;

Найдите ранги и веса переменных предикторов с помощью 10 самых близких соседей и обработав данные в X как категориальный.

[idx,weights] = relieff(X,y,10,'categoricalx','on')

idx = 1×3

     2     3     1

weights = 1×3

   -0.0019    0.0501    0.0114

Model предиктор является самым важным в предсказании MPG. Mfg переменная имеет отрицательный вес, указывая, что это не хороший предиктор MPG.

Входные параметры

свернуть все

`X` — Данные о предикторе
числовая матрица

Данные о предикторе в виде числовой матрицы. Каждая строка X соответствует одному наблюдению, и каждый столбец соответствует одной переменной.

Типы данных: single | double

`y` — Данные об ответе
числовой вектор | категориальный вектор | логический вектор | символьный массив | массив строк | массив ячеек из символьных векторов

Данные об ответе в виде числового вектора, категориального вектора, логического вектора, символьного массива, массива строк или массива ячеек из символьных векторов.

`k` — Количество самых близких соседей
положительный целочисленный скаляр

Количество самых близких соседей в виде положительного целочисленного скаляра.

Типы данных: single | double

Аргументы name-value

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: relieff(X,y,5,'method','classification','categoricalx','on') задает 5 самых близких соседей и обрабатывает переменную отклика и данные о предикторе как категориальные.

`method` — Метод для вычислительных весов
`'regression'` | `'classification'`

Метод для вычислительных весов в виде разделенной запятой пары, состоящей из 'method' и любой 'regression' или 'classification'. Если y является числовым, 'regression' метод по умолчанию. В противном случае, 'classification' значение по умолчанию.

Пример: 'method','classification'

`prior` — Априорные вероятности для каждого класса
`'empirical'` (значение по умолчанию) | `'uniform'` | числовой вектор | структура

Априорные вероятности для каждого класса в виде разделенной запятой пары, состоящей из 'prior' и значение в этой таблице.

Значение	Описание
`'empirical'`	Вероятности класса определяются из частот класса в `y`.
`'uniform'`	Все вероятности класса равны.
числовой вектор	Одно значение существует для каждого отличного названия группы.
структура	Структура `S` с двумя полями: `S.group` содержит названия группы как переменную того же типа как `y`. `S.prob` содержит вектор из соответствующих вероятностей.

Пример: 'prior','uniform'

Типы данных: single | double | char | string | struct

`updates` — Количество наблюдений для вычислительных весов
`'all'` (значение по умолчанию) | положительный целочисленный скаляр

Количество наблюдений, чтобы выбрать наугад для вычислительных весов в виде разделенной запятой пары, состоящей из 'updates' и любой 'all' или положительный целочисленный скаляр. По умолчанию, relieff использование все наблюдения.

Пример: 'updates',25

Типы данных: single | double | char | string

`categoricalx` — Категориальный флаг предикторов
`'off'` (значение по умолчанию) | `'on'`

Категориальные предикторы отмечают в виде разделенной запятой пары, состоящей из 'categoricalx' и любой 'on' или 'off'. Если вы задаете 'on'то relieff обработки все предикторы в X как категориальный. В противном случае это обрабатывает все предикторы в X как числовой. Вы не можете смешать числовые и категориальные предикторы.

Пример: 'categoricalx','on'

`sigma` — Масштабный коэффициент расстояния
числовая положительная скалярная величина

Масштабный коэффициент расстояния в виде разделенной запятой пары, состоящей из 'sigma' и числовая положительная скалярная величина. Для наблюдения i влияние на вес предиктора от его самого близкого соседнего j умножается на $e^{- {(rank (i, j) / \sigma}^{2}}$ . ранг (i, j) является положением j th наблюдение среди самых близких соседей i th наблюдение, отсортированное по расстоянию. Значением по умолчанию является Inf для классификации (все самые близкие соседи имеют то же влияние), и 50 для регрессии.

Пример: 'sigma',20

Типы данных: single | double

Выходные аргументы

свернуть все

`idx` — Индексы предикторов упорядочены важностью предиктора
числовой вектор

Индексы предикторов в X упорядоченный важностью предиктора, возвращенной как числовой вектор. Например, если idx(3) 5, затем третий по важности предиктор является пятой колонной в X.

Типы данных: double

`weights` — Веса предикторов
числовой вектор

Веса предикторов, возвращенных как числовой вектор. Значения в weights имейте тот же порядок как предикторы в X. weights лежите в диапазоне от –1 к 1, с большими положительными весами, присвоенными важным предикторам.

Типы данных: double

Советы

Ранги предиктора и веса обычно зависят от k. Если вы устанавливаете k к 1, затем оценки могут быть ненадежными для зашумленных данных. Если вы устанавливаете k к значению, сопоставимому с количеством наблюдений (строки) в X, relieff может не найти важные предикторы. Можно начать с k= 10 и исследуйте устойчивость и надежность relieff ранги и веса для различных значений k.
relieff удаляет наблюдения с NaN значения.

Алгоритмы

свернуть все

ReliefF

ReliefF находит веса предикторов в случае где y мультикласс категориальная переменная. Алгоритм штрафует предикторы, которые дают различные значения соседям того же класса, и вознаграждает предикторы, которые дают различные значения соседям различных классов.

ReliefF сначала устанавливает все веса предиктора _Wj на 0. Затем алгоритм итеративно выбирает случайное наблюдение _xr, находит k - самые близкие наблюдения к _xr для каждого класса и обновления, для каждого самого близкого соседнего _xq, всех весов для предикторов _Fj можно следующим образом:

Если _xr и _xq находятся в том же классе,

$W_{j}^{i} = W_{j}^{i - 1} - \frac{Δ_{j} (x_{r}, x_{q})}{m} \cdot d_{r q} .$

Если _xr и _xq находятся в различных классах,

$W_{j}^{i} = W_{j}^{i - 1} + \frac{p_{y_{q}}}{1 - p_{y_{r}}} \cdot \frac{Δ_{j} (x_{r}, x_{q})}{m} \cdot d_{r q} .$

_Wjⁱ вес предиктора _Fj в i th шаг итерации.
_{_pyr} является априорной вероятностью класса, которому принадлежит _xr, и _{_pyq} является априорной вероятностью класса, которому принадлежит _xq.
m является количеством итераций, заданных 'updates'.
$Δ_{j} (x_{r}, x_{q})$ различие в значении предиктора _Fj между наблюдениями _xr и _xq. Позвольте _xrj обозначить значение j th предиктор для наблюдения _xr и позволить _xqj обозначить значение j th предиктор для наблюдения _xq.
- Для дискретного _Fj,
  
  $Δ_{j} (x_{r}, x_{q}) = {\begin{matrix} 0, & x_{r j} = x_{q j} \\ 1, & x_{r j} \neq x_{q j} \end{matrix} .$
- Для непрерывного _Fj,
  
  $Δ_{j} (x_{r}, x_{q}) = \frac{| x_{r j} - x_{q j} |}{max (F_{j}) - min (F_{j})} .$
_drq является функцией расстояния формы

$d_{r q} = \frac{{\tilde{d}}_{r q}}{\sum_{l = 1}^{k} {\tilde{d}}_{r l}} .$
Расстояние подвергается масштабированию

${\tilde{d}}_{r q} = e^{- {(ранг (r, q) / \sigma}^{2}}$
где ранг (r, q) является положением q th наблюдение среди самых близких соседей r th наблюдение, отсортированное по расстоянию. k является количеством самых близких соседей, заданных k. Можно изменить масштабирование путем определения 'sigma'.

RReliefF

RReliefF работает с непрерывным y. Подобно ReliefF RReliefF также штрафует предикторы, которые дают различные значения соседям с теми же значениями отклика, и вознаграждает предикторы, которые дают различные значения соседям с различными значениями отклика. Однако RReliefF использует промежуточные веса, чтобы вычислить итоговые веса предиктора.

Учитывая двух самых близких соседей, примите следующее:

_Wdy является весом наличия различных значений для ответа y.
_Wdj является весом наличия различных значений для предиктора _Fj.
$W_{d y \land d j}$ вес наличия различных значений отклика и различных значений для предиктора _Fj.

RReliefF сначала устанавливает веса _Wdy, _Wdj, $W_{d y \land d j}$ , и _Wj равняется 0. Затем алгоритм итеративно выбирает случайное наблюдение _xr, находит k - самые близкие наблюдения к _xr и обновления, для каждого самого близкого соседнего _xq, все промежуточные веса можно следующим образом:

$W_{d y}^{i} = W_{d y}^{i - 1} + Δ_{y} (x_{r}, x_{q}) \cdot d_{r q} .$

$W_{d j}^{i} = W_{d j}^{i - 1} + Δ_{j} (x_{r}, x_{q}) \cdot d_{r q} .$

$W_{d y \land d j}^{i} = W_{d y \land d j}^{i - 1} + Δ_{y} (x_{r}, x_{q}) \cdot Δ_{j} (x_{r}, x_{q}) \cdot d_{r q} .$

i и i-1 верхний индекс обозначают номер шага итерации. m является количеством итераций, заданных 'updates'.
$Δ_{y} (x_{r}, x_{q})$ различие в значении непрерывного ответа y между наблюдениями _xr и _xq. Позвольте _yr обозначить значение ответа для наблюдения _xr и позволить _yq обозначить значение ответа для наблюдения _xq.

$Δ_{y} (x_{r}, x_{q}) = \frac{| y_{r} - y_{q} |}{max (y) - min (y)} .$
$Δ_{j} (x_{r}, x_{q})$ и функции _drq эквивалентны для ReliefF.

RReliefF вычисляет веса предиктора _Wj после полностью обновления всех промежуточных весов.

$W_{j} = \frac{W_{d y \land d j}}{W_{d y}} - \frac{W_{d j} - W_{d y \land d j}}{m - W_{d y}} .$

Для получения дополнительной информации см. [2].

Ссылки

[1] Кононенко, я., Э. Симек и М. Робник-Сиконджа. (1997). “Преодолевая близорукость индуктивных алгоритмов обучения с РЕЛИЕВЫМ”. Полученный из CiteSeerX: https://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.4740

[2] Robnik-Sikonja, M. и я. Кононенко. (1997). “Адаптация Облегчения для оценки атрибута регрессию”. Полученный из CiteSeerX: https://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.34.8381

[3] Robnik-Sikonja, M. и я. Кононенко. (2003). “Теоретический и эмпирический анализ ReliefF и RReliefF”. Машинное обучение, 53, 23–69.

Темы

Представленный в R2010b

Документация

relieff

Синтаксис

Описание

Примеры

Определите важные предикторы

Оцените предикторы важностью

Определите важные категориальные предикторы

Входные параметры

`X` — Данные о предикторе
числовая матрица

`y` — Данные об ответе
числовой вектор | категориальный вектор | логический вектор | символьный массив | массив строк | массив ячеек из символьных векторов

`k` — Количество самых близких соседей
положительный целочисленный скаляр

Аргументы name-value

`method` — Метод для вычислительных весов
`'regression'` | `'classification'`

`prior` — Априорные вероятности для каждого класса
`'empirical'` (значение по умолчанию) | `'uniform'` | числовой вектор | структура

`updates` — Количество наблюдений для вычислительных весов
`'all'` (значение по умолчанию) | положительный целочисленный скаляр

`categoricalx` — Категориальный флаг предикторов
`'off'` (значение по умолчанию) | `'on'`

`sigma` — Масштабный коэффициент расстояния
числовая положительная скалярная величина

Выходные аргументы

`idx` — Индексы предикторов упорядочены важностью предиктора
числовой вектор

`weights` — Веса предикторов
числовой вектор

Советы

Алгоритмы

ReliefF

RReliefF

Ссылки

Смотрите также

Темы

Документация Statistics and Machine Learning Toolbox

Поддержка

Документация

relieff

Синтаксис

Описание

Примеры

Определите важные предикторы

Оцените предикторы важностью

Определите важные категориальные предикторы

Входные параметры

X — Данные о предикторе числовая матрица

y — Данные об ответе числовой вектор | категориальный вектор | логический вектор | символьный массив | массив строк | массив ячеек из символьных векторов

k — Количество самых близких соседей положительный целочисленный скаляр

Аргументы name-value

method — Метод для вычислительных весов 'regression' | 'classification'

prior — Априорные вероятности для каждого класса 'empirical' (значение по умолчанию) | 'uniform' | числовой вектор | структура

updates — Количество наблюдений для вычислительных весов 'all' (значение по умолчанию) | положительный целочисленный скаляр

categoricalx — Категориальный флаг предикторов 'off' (значение по умолчанию) | 'on'

sigma — Масштабный коэффициент расстояния числовая положительная скалярная величина

Выходные аргументы

idx — Индексы предикторов упорядочены важностью предиктора числовой вектор

weights — Веса предикторов числовой вектор

Советы

Алгоритмы

ReliefF

RReliefF

Ссылки

Смотрите также

Темы

Документация Statistics and Machine Learning Toolbox

Поддержка

`X` — Данные о предикторе
числовая матрица

`y` — Данные об ответе
числовой вектор | категориальный вектор | логический вектор | символьный массив | массив строк | массив ячеек из символьных векторов

`k` — Количество самых близких соседей
положительный целочисленный скаляр

`method` — Метод для вычислительных весов
`'regression'` | `'classification'`

`prior` — Априорные вероятности для каждого класса
`'empirical'` (значение по умолчанию) | `'uniform'` | числовой вектор | структура

`updates` — Количество наблюдений для вычислительных весов
`'all'` (значение по умолчанию) | положительный целочисленный скаляр

`categoricalx` — Категориальный флаг предикторов
`'off'` (значение по умолчанию) | `'on'`

`sigma` — Масштабный коэффициент расстояния
числовая положительная скалярная величина

`idx` — Индексы предикторов упорядочены важностью предиктора
числовой вектор

`weights` — Веса предикторов
числовой вектор