Оцените ключевые возможности по критериям разделимости классов
[
IDX
, Z
]
= rankfeatures(X
, Group
)
[IDX
, Z
]
= rankfeatures(X
, Group
,
...'Criterion', CriterionValue
, ...)
[IDX
, Z
]
= rankfeatures(X
, Group
,
...'CCWeighting', ALPHA
, ...)
[IDX
, Z
]
= rankfeatures(X
, Group
,
...'NWeighting', BETA
, ...)
[IDX
, Z
]
= rankfeatures(X
, Group
,
...'NumberOfIndices', N
, ...)
[IDX
, Z
]
= rankfeatures(X
, Group
,
...'CrossNorm', CN
, ...)
[
ранжирует функции в IDX
, Z
]
= rankfeatures(X
, Group
)X
использование независимого критерия оценки для двоичной классификации. X
является матрицей, где каждый столбец является наблюдаемым вектором, и количество строк соответствует исходному количеству функций. Group
содержит метки классов.
IDX
список индексов для строк в X
с наиболее значимыми функциями. Z
- абсолютное значение используемого критерия (см. ниже).
Group
может быть числовым вектором, массивом ячеек из векторов символов или строковым вектором. numel(Group)
совпадает с количеством столбцов в X
, и Group
должно иметь только два уникальных значения. Если он содержит какие-либо значения NaN, функция игнорирует соответствующий вектор наблюдения в X
.
[
вызывает IDX
, Z
] = rankfeatures (X
, Group
... 'PropertyName
', PropertyValue
, ...)rankfeatures
с необязательными свойствами, которые используют пары имя/значение свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName
должны быть заключены в одинарные кавычки и нечувствительны к регистру. Эти имена свойства/пары значения свойств следующие:
[
устанавливает критерий, используемый для оценки значимости каждой функции для разделения двух маркированных групп. Варианты:IDX
, Z
]
= rankfeatures(X
, Group
,
...'Criterion', CriterionValue
, ...)
'ttest'
(по умолчанию) - Абсолютное значение t-критерия с двумя образцами с объединенной оценкой отклонения.
'entropy'
- Относительная энтропия, также известная как расстояние Кулбэка-Лейблера или расхождение.
'bhattacharyya'
- Минимальная достижимая ошибка классификации или граница Черноффа.
'roc'
- Площадь между кривой рабочей характеристики эмпирического приемника (ROC) и наклоном случайного классификатора.
'wilcoxon'
- Абсолютное значение стандартизированной u-статистики двухвыборочного непарного теста Уилкоксона, также известного как Манн-Уитни.
Примечание
'ttest'
, 'entropy'
, и 'bhattacharyya'
предположим, что нормальные распределенные классы во время 'roc'
и 'wilcoxon'
являются непараметрическими тестами. Все тесты являются независимыми от функций.
[
использует корреляционную информацию, чтобы перевесить IDX
, Z
]
= rankfeatures(X
, Group
,
...'CCWeighting', ALPHA
, ...)Z
значение потенциальных функций с помощью
, где Z
* (1-<reservedrangesplaceholder0>
* (RHO))RHO
- среднее значение абсолютных значений коэффициента перекрестной корреляции между функцией-кандидатом и всеми ранее выбранными функциями. ALPHA
устанавливает весовой коэффициент. Это скалярное значение между 0
и 1
. Когда ALPHA
является 0
(по умолчанию) потенциальные функции не взвешены. Большое значение RHO
(близко к 1
) перевешивает статистику значимости; это означает, что функции, которые сильно коррелируют с уже выбранными функциями, с меньшей вероятностью будут включены в выходной список.
[
использует региональную информацию, чтобы перевесить IDX
, Z
]
= rankfeatures(X
, Group
,
...'NWeighting', BETA
, ...)Z
значение потенциальных функций с помощью
, где Z
* (1-exp (- (DIST/ BETA
).^2))DIST
- расстояние (в строках) между кандидатом функции и ранее выбранными функциями. BETA
устанавливает весовой коэффициент. Это больше или равно 0
. Когда BETA
является 0
(по умолчанию) потенциальные функции не взвешены. Небольшой DIST
(близко к 0
) перевешивает статистику значимости только близких функций. Это означает, что функции, близкие к уже выбранным функциям, с меньшей вероятностью будут включены в выходной список. Эта опция полезна для извлечения функций из временных рядов с временной корреляцией.
BETA
может также быть функцией расположения признака, заданной с помощью @
или анонимную функцию. В обоих случаях rankfeatures
передает положение строки функции в BETA()
и ожидает назад значение, больше или равное 0
.
Примечание
Можно использовать 'CCWeighting'
и 'NWeighting'
вместе.
[
устанавливает количество индексов выхода в IDX
, Z
]
= rankfeatures(X
, Group
,
...'NumberOfIndices', N
, ...)IDX
. Значение по умолчанию совпадает с количеством функций при ALPHA
и BETA
являются 0
, или 20
в противном случае.
[
применяет независимую нормализацию к наблюдениям для каждой функции. Перекрестная нормализация обеспечивает сопоставимость между различными функциями, хотя это не всегда необходимо, потому что выбранный критерий может уже объяснить это. Варианты:IDX
, Z
]
= rankfeatures(X
, Group
,
...'CrossNorm', CN
, ...)
'none'
(по умолчанию) - Интенсивность не является перекрестной нормализацией.
'meanvar'
— x_new = (x - mean(x))/std(x)
'softmax'
— x_new = (1+exp((mean(x)-x)/std(x)))^-1
'minmax'
— x_new = (x - min(x))/(max(x)-min(x))
[1] Theodoridis, S., and Koutroumbas, K. (1999). Распознавание шаблонов, Академическая пресса, 341-342.
[2] Liu, H., Motoda, H. (1998). Выбор признаков по открытию знаний и Данных майнингу, Kluwer Academic Publishers.
[3] Росс, Д. Т. et.al. (2000). Систематические изменения шаблонов экспрессии генов в клеточных линиях рака человека. Генетика природы. 24 (3), 227-235.
classify
| classperf
| crossvalind
| randfeatures
| sequentialfs