fsrftest

Одномерная функция, занимающая место для регрессии с помощью F - тесты

Описание

idx = fsrftest(Tbl,ResponseVarName) ранги показывают (предикторы) с помощью F - тесты. Таблица Tbl содержит переменные предикторы и переменную отклика и ResponseVarName имя переменной отклика в Tbl. Функция возвращает idx, который содержит индексы предикторов, упорядоченных важностью предиктора, означая idx(1) индекс самого важного предиктора. Можно использовать idx выбрать важные предикторы для проблем регрессии.

idx = fsrftest(Tbl,formula) задает переменную отклика и переменные предикторы, чтобы рассмотреть среди переменных в Tbl при помощи formula.

пример

idx = fsrftest(Tbl,Y) предикторы рангов в Tbl использование переменной отклика Y.

пример

idx = fsrftest(X,Y) предикторы рангов в X использование переменной отклика Y.

idx = fsrftest(___,Name,Value) задает дополнительные опции с помощью одного или нескольких аргументов пары "имя-значение" в дополнение к любой из комбинаций входных аргументов в предыдущих синтаксисах. Например, можно задать категориальные предикторы и веса наблюдения.

пример

[idx,scores] = fsrftest(___) также возвращает баллы предиктора scores. Большое значение баллов указывает, что соответствующий предиктор важен.

Примеры

свернуть все

Оцените предикторы в числовой матрице и создайте столбиковую диаграмму баллов важности предиктора.

Загрузите выборочные данные.

load robotarm.mat

robotarm набор данных содержит 7 168 учебных наблюдений (Xtrain и ytrain) и 1 024 тестовых наблюдения (Xtest и ytest) с 32 функциями [1][2].

Оцените предикторы с помощью учебных наблюдений.

[idx,scores] = fsrftest(Xtrain,ytrain);

Значения в scores отрицательные журналы p-значений. Если p-значение меньше, чем eps(0), затем соответствующим значением баллов является Inf. Прежде, чем создать столбиковую диаграмму, определите ли scores включает Inf значения.

find(isinf(scores))
ans =

  1x0 empty double row vector

scores не включает Inf значения. Если scores включает Inf значения, можно заменить Inf большим числовым номером прежде, чем создать столбиковую диаграмму в целях визуализации. Для получения дополнительной информации смотрите Предикторы Ранга в Таблице.

Создайте столбиковую диаграмму баллов важности предиктора.

bar(scores(idx))
xlabel('Predictor rank')
ylabel('Predictor importance score')

Выберите лучшие пять самых важных предикторов. Найдите столбцы этих предикторов в Xtrain.

idx(1:5)
ans = 1×5

    30    24    10     4     5

30-й столбец Xtrain самый важный предиктор ytrain.

Оцените предикторы в таблице и создайте столбиковую диаграмму баллов важности предиктора.

Если ваши данные находятся в таблице и fsrftest оценивает подмножество переменных в таблице, затем функция индексирует переменные с помощью только подмножество. Поэтому хорошая практика должна переместить предикторы, которые вы не хотите оценивать в конец таблицы. Переместите переменную отклика и вектор веса наблюдения также. Затем индексы выходных аргументов сопоставимы с индексами таблицы. Можно переместить переменные в таблицу с помощью movevars функция.

Этот пример использует данные о Морском ушке [3][4] от Репозитория Машинного обучения UCI [5]. Загрузите данные и сохраните их в вашей текущей папке с именем 'abalone.data'.

Храните данные в таблице.

tbl = readtable('abalone.data','Filetype','text','ReadVariableNames',false);
tbl.Properties.VariableNames = {'Sex','Length','Diameter','Height', ...
    'WWeight','SWeight','VWeight','ShWeight','NoShellRings'};

Предварительно просмотрите первые несколько строк таблицы.

head(tbl)
ans=8×9 table
     Sex     Length    Diameter    Height    WWeight    SWeight    VWeight    ShWeight    NoShellRings
    _____    ______    ________    ______    _______    _______    _______    ________    ____________

    {'M'}    0.455      0.365      0.095      0.514     0.2245      0.101       0.15           15     
    {'M'}     0.35      0.265       0.09     0.2255     0.0995     0.0485       0.07            7     
    {'F'}     0.53       0.42      0.135      0.677     0.2565     0.1415       0.21            9     
    {'M'}     0.44      0.365      0.125      0.516     0.2155      0.114      0.155           10     
    {'I'}     0.33      0.255       0.08      0.205     0.0895     0.0395      0.055            7     
    {'I'}    0.425        0.3      0.095     0.3515      0.141     0.0775       0.12            8     
    {'F'}     0.53      0.415       0.15     0.7775      0.237     0.1415       0.33           20     
    {'F'}    0.545      0.425      0.125      0.768      0.294     0.1495       0.26           16     

Последняя переменная в таблице является переменной отклика.

Оцените предикторы в tbl. Задайте последний столбец NoShellRings как переменная отклика.

[idx,scores] = fsrftest(tbl,'NoShellRings')
idx = 1×8

     3     4     5     7     8     2     6     1

scores = 1×8

  447.6891  736.9619       Inf       Inf       Inf  604.6692       Inf       Inf

Значения в scores отрицательные журналы p-значений. Если p-значение меньше, чем eps(0), затем соответствующим значением баллов является Inf. Прежде, чем создать столбиковую диаграмму, определите ли scores включает Inf значения.

idxInf = find(isinf(scores))
idxInf = 1×5

     3     4     5     7     8

scores включает пять Inf значения.

Создайте столбиковую диаграмму баллов важности предиктора. Используйте имена предиктора в метках в виде галочки оси X.

bar(scores(idx))
xlabel('Predictor rank')
ylabel('Predictor importance score')
xticklabels(strrep(tbl.Properties.VariableNames(idx),'_','\_'))
xtickangle(45)

bar функция не строит панелей для Inf значения. Для Inf значения, панели графика, которые имеют ту же длину как самый большой конечный счет.

hold on
bar(scores(idx(length(idxInf)+1))*ones(length(idxInf),1))
legend('Finite Scores','Inf Scores')
hold off

Столбчатый график отображает конечные баллы и баллы Inf с помощью различных цветов.

Входные параметры

свернуть все

Выборочные данные в виде таблицы. Многостолбцовые переменные и массивы ячеек кроме массивов ячеек из символьных векторов не позволены.

Каждая строка Tbl соответствует одному наблюдению, и каждый столбец соответствует одному переменному предиктору. Опционально, Tbl может содержать дополнительные столбцы для весов наблюдения и переменной отклика.

Переменная отклика может быть категориальным, символом, или массивом строк, логическим или числовым вектором или массивом ячеек из символьных векторов. Если переменная отклика является символьным массивом, то каждый элемент переменной отклика должен соответствовать одной строке массива.

  • Если Tbl содержит переменную отклика, и вы хотите использовать все остающиеся переменные в Tbl как предикторы, затем задайте переменную отклика при помощи ResponseVarName. Если Tbl также содержит веса наблюдения, затем можно задать веса при помощи Weights.

  • Если Tbl содержит переменную отклика, и вы хотите использовать только подмножество остающихся переменных в Tbl как предикторы, затем задайте подмножество переменных при помощи formula.

  • Если Tbl не содержит переменную отклика, затем задает переменную отклика при помощи Y. Переменная отклика и Tbl должен иметь одинаковое число строк.

Если fsrftest использует подмножество переменных в Tbl как предикторы, затем функция индексирует предикторы с помощью только подмножество. Значения в 'CategoricalPredictors' аргумент пары "имя-значение" и выходной аргумент idx не считайте предикторы, которые не оценивает функция.

fsrftest рассматривает NaN, '' (пустой символьный вектор), "" (пустая строка), <missing>, и <undefined> значения в Tbl для переменной отклика, чтобы быть отсутствующими значениями. fsrftest не использует наблюдения с отсутствующими значениями для переменной отклика.

Типы данных: table

Имя переменной отклика в виде вектора символов или строкового скаляра, содержащего имя переменной в Tbl.

Например, если переменная отклика является столбцом Y из Tbl (Tbl.Y), затем задайте ResponseVarName как 'Y'.

Типы данных: char | string

Объяснительная модель переменной отклика и подмножество переменных предикторов в виде вектора символов или строкового скаляра в форме 'Y ~ X1 + X2 + X3'. В этой форме, Y представляет переменную отклика и X1x2 , и X3 представляйте переменные предикторы.

Задавать подмножество переменных в Tbl как предикторы, используйте формулу. Если вы задаете формулу, то fsrftest не оценивает переменных в Tbl это не появляется в formula.

Имена переменных в формуле должны быть оба именами переменных в Tbl (Tbl.Properties.VariableNames) и допустимые идентификаторы MATLAB®. Для получения дополнительной информации смотрите Советы.

Типы данных: char | string

Переменная отклика в виде числового, категориального, или логического вектора, символьного массива или массива строк или массива ячеек из символьных векторов. Каждая строка Y представляет метки соответствующей строки X.

fsrftest рассматривает NaN, '' (пустой символьный вектор), "" (пустая строка), <missing>, и <undefined> значения в Y быть отсутствующими значениями. fsrftest не использует наблюдения с отсутствующими значениями для Y.

Типы данных: single | double | categorical | logical | char | string | cell

Данные о предикторе в виде числовой матрицы. Каждая строка X соответствует одному наблюдению, и каждый столбец соответствует одному переменному предиктору.

Типы данных: single | double

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'NumBins',20,'UseMissing',true определяет номер интервалов как 20 и задает, чтобы использовать отсутствующие значения в предикторах для рейтинга.

Список категориальных предикторов в виде разделенной запятой пары, состоящей из 'CategoricalPredictors' и одно из значений в этой таблице.

ЗначениеОписание
Вектор положительных целых чиселКаждая запись в векторе является значением индекса, соответствующим столбцу данных о предикторе (X или Tbl) это содержит категориальную переменную.
Логический векторtrue запись означает что соответствующий столбец данных о предикторе (X или Tbl) категориальная переменная.
Символьная матрицаКаждая строка матрицы является именем переменного предиктора. Имена должны совпадать с именами в Tbl. Заполните имена дополнительными пробелами, таким образом, каждая строка символьной матрицы имеет ту же длину.
Массив строк или массив ячеек из символьных векторовКаждым элементом в массиве является имя переменного предиктора. Имена должны совпадать с именами в Tbl.
'all'Все предикторы являются категориальными.

По умолчанию, если данные о предикторе находятся в таблице (Tbl), fsrftest принимает, что переменная является категориальной, если это - логический вектор, неупорядоченный категориальный вектор, символьный массив, массив строк или массив ячеек из символьных векторов. Если данные о предикторе являются матрицей (X), fsrftest принимает, что все предикторы непрерывны. Чтобы идентифицировать любые другие предикторы как категориальные предикторы, задайте их при помощи 'CategoricalPredictors' аргумент пары "имя-значение".

Если fsrftest использует подмножество переменных в Tbl как предикторы, затем функция индексирует предикторы с помощью только подмножество. 'CategoricalPredictors' значения не считают предикторы, которые не оценивает функция.

Пример: 'CategoricalPredictors','all'

Типы данных: single | double | logical | char | string | cell

Количество интервалов для раскладывания непрерывные предикторы в виде разделенной запятой пары, состоящей из 'NumBins' и положительный целочисленный скаляр.

Пример: 'NumBins',50

Типы данных: single | double

Индикатор для того, использовать ли или отбросить отсутствующие значения в предикторах в виде разделенной запятой пары, состоящей из 'UseMissing' и любой true использовать или false отбрасывать отсутствующие значения в предикторах для рейтинга.

fsrftest рассматривает NaN, '' (пустой символьный вектор), "" (пустая строка), <missing>, и <undefined> значения, чтобы быть отсутствующими значениями.

Если вы задаете 'UseMissing',true, затем fsrftest отсутствующие значения использования для рейтинга. Для категориальной переменной, fsrftest отсутствующие значения обработок как дополнительная категория. Для непрерывной переменной, fsrftest места NaN значения в отдельном интервале для раскладывания.

Если вы задаете 'UseMissing',false, затем fsrftest не использует отсутствующие значения в рейтинге. Поскольку fsrftest вычисляет музыку важности индивидуально к каждому предиктору, функция не отбрасывает целую строку, когда значения в строке частично отсутствуют. Для каждой переменной, fsrftest использование все значения, которые не отсутствуют.

Пример: 'UseMissing',true

Типы данных: логический

Веса наблюдения в виде разделенной запятой пары, состоящей из 'Weights' и вектор скалярных значений или имя переменной в Tbl. Функциональные веса наблюдения в каждой строке X или Tbl с соответствующим значением в Weights. Размер Weights должен равняться количеству строк в X или Tbl.

Если вы задаете входные данные как таблицу Tbl, затем Weights может быть имя переменной в Tbl это содержит числовой вектор. В этом случае необходимо задать Weights как вектор символов или строковый скаляр. Например, если вектор веса является столбцом W из Tbl (Tbl.W), затем задайте 'Weights','W'.

fsrftest нормирует веса, чтобы составить в целом тот.

Типы данных: single | double | char | string

Выходные аргументы

свернуть все

Индексы предикторов в X или Tbl упорядоченный важностью предиктора, возвращенной как 1 r числовым вектором, где r является количеством оцениваемых предикторов.

Если fsrftest использует подмножество переменных в Tbl как предикторы, затем функция индексирует предикторы с помощью только подмножество. Например, предположите Tbl включает 10 столбцов, и вы задаете последние пять столбцов Tbl как переменные предикторы при помощи formula. Если idx(3) 5, затем третий по важности предиктор является 10-м столбцом в Tbl, который является пятым предиктором в подмножестве.

Баллы предиктора, возвращенные как 1 r числовым вектором, где r является количеством оцениваемых предикторов.

Большое значение баллов указывает, что соответствующий предиктор важен.

  • Если вы используете X задавать предикторы или использовать все переменные в Tbl как предикторы, затем значения в scores имейте тот же порядок как предикторы в X или Tbl.

  • Если вы задаете подмножество переменных в Tbl как предикторы, затем значения в scores имейте тот же порядок как подмножество.

Например, предположите Tbl включает 10 столбцов, и вы задаете последние пять столбцов Tbl как переменные предикторы при помощи formula. Затем score(3) содержит значение баллов 8-го столбца в Tbl, который является третьим предиктором в подмножестве.

Советы

  • Если вы задаете переменную отклика и переменные предикторы при помощи входного параметра formula, затем имена переменных в формуле должны быть оба именами переменных в Tbl (Tbl.Properties.VariableNames) и допустимые идентификаторы MATLAB.

    Можно проверить имена переменных в Tbl при помощи isvarname функция. Следующий код возвращает логический 1 TRUE) для каждой переменной, которая имеет допустимое имя переменной.

    cellfun(@isvarname,Tbl.Properties.VariableNames)
    Если имена переменных в Tbl не допустимы, затем преобразуют их при помощи matlab.lang.makeValidName функция.
    Tbl.Properties.VariableNames = matlab.lang.makeValidName(Tbl.Properties.VariableNames);

Алгоритмы

свернуть все

Одномерный рейтинг функции Используя F - тесты

  • fsrftest исследует важность каждого предиктора индивидуально с помощью F - тест. Каждый F - тест тестирует гипотезу, что значения ответа, сгруппированные значениями переменного предиктора, чертятся от популяций с тем же средним значением против альтернативной гипотезы, что средние значения населения не являются всеми одинаковыми. Маленький p - значение тестовой статистической величины указывает, что соответствующий предиктор важен.

  • Выход scores - журнал (p). Поэтому большое значение баллов указывает, что соответствующий предиктор важен. Если p - значение меньше, чем eps(0), затем выходом является Inf.

  • fsrftest исследует непрерывную переменную после раскладывания, или дискретизации, переменной. Можно задать количество интервалов с помощью 'NumBins' аргумент пары "имя-значение".

Ссылки

[1] Расмуссен, C. E. Р. М. Нил, Г. Э. Хинтон, Д. ван Кэмп, M. Повторно поклянитесь, З. Гэхрэмани, Р. Кастра и Р. Тибширэни. Руководство DELVE, 1996.

[2] Университет Торонто, кафедра информатики. Пашите наборы данных.

[3] Нэш, Уорик J., редактор Биология Населения Морского ушка (Разновидности Haliotis) на Тасмании. 1: Морское ушко Blacklip (Х. Рабра) от Северного Побережья и Островов Пролива Басса. Технический отчет / Отдел Морского Рыболовства, Тасмания 48. Taroona: морские Научно-исследовательские лаборатории, 1994.

[4] Во, S. "Расширяя и тестируя Каскадной Корреляции в сравнении с эталоном". Диссертация. Кафедра информатики, университет Тасмании, 1995.

[5] Личмен, M. Репозиторий Машинного обучения UCI. Ирвин, CA: Калифорнийский университет, Школа Информатики и вычислительной техники, 2013. http://archive.ics.uci.edu/ml.

Введенный в R2020a