Просмотр предикторов кредитной карты показателей для прогнозной стоимости
возвращает выходную переменную, metric_table = screenpredictors(data)metric_tableтаблица MATLAB ®, содержащая вычисленные значения для нескольких показателей прогнозирующей мощности для каждой прогнозирующей переменной в data. Используйте screenpredictors функция в качестве шага предварительной обработки в потоке операций Моделирование кредитной карты показателей для уменьшения числа переменных предиктора перед созданием кредитной карты показателей с помощью creditscorecard функция из Финансового Toolbox™.
указывает параметры, использующие один или несколько аргументов пары имя-значение в дополнение к входным аргументам в предыдущем синтаксисе. metric_table = screenpredictors(___,Name,Value)
creditscorecard ОбъектУменьшите количество переменных предиктора путем скрининга предикторов перед созданием кредитной карты показателей.
Используйте CreditCardData.mat для загрузки данных (с использованием набора данных из Refaat 2011).
load CreditCardData.matОпределить 'IDVar' и 'ResponseVar'.
idvar = 'CustID'; responsevar = 'status';
Использовать screenpredictors чтобы вычислить метрики скрининга предиктора. Функция возвращает таблицу, содержащую значения метрик. Каждая строка таблицы соответствует предиктору из данных входной таблицы.
metric_table = screenpredictors(data,'IDVar', idvar,'ResponseVar', responsevar)
metric_table=9×7 table
InfoValue AccuracyRatio AUROC Entropy Gini Chi2PValue PercentMissing
_________ _____________ _______ _______ _______ __________ ______________
CustAge 0.18863 0.17095 0.58547 0.88729 0.42626 0.00074524 0
TmWBank 0.15719 0.13612 0.56806 0.89167 0.42864 0.0054591 0
CustIncome 0.15572 0.17758 0.58879 0.891 0.42731 0.0018428 0
TmAtAddress 0.094574 0.010421 0.50521 0.90089 0.43377 0.182 0
UtilRate 0.075086 0.035914 0.51796 0.90405 0.43575 0.45546 0
AMBalance 0.07159 0.087142 0.54357 0.90446 0.43592 0.48528 0
EmpStatus 0.048038 0.10886 0.55443 0.90814 0.4381 0.00037823 0
OtherCC 0.014301 0.044459 0.52223 0.91347 0.44132 0.047616 0
ResStatus 0.0097738 0.05039 0.5252 0.91422 0.44182 0.27875 0
metric_table = sortrows(metric_table,'AccuracyRatio','descend')
metric_table=9×7 table
InfoValue AccuracyRatio AUROC Entropy Gini Chi2PValue PercentMissing
_________ _____________ _______ _______ _______ __________ ______________
CustIncome 0.15572 0.17758 0.58879 0.891 0.42731 0.0018428 0
CustAge 0.18863 0.17095 0.58547 0.88729 0.42626 0.00074524 0
TmWBank 0.15719 0.13612 0.56806 0.89167 0.42864 0.0054591 0
EmpStatus 0.048038 0.10886 0.55443 0.90814 0.4381 0.00037823 0
AMBalance 0.07159 0.087142 0.54357 0.90446 0.43592 0.48528 0
ResStatus 0.0097738 0.05039 0.5252 0.91422 0.44182 0.27875 0
OtherCC 0.014301 0.044459 0.52223 0.91347 0.44132 0.047616 0
UtilRate 0.075086 0.035914 0.51796 0.90405 0.43575 0.45546 0
TmAtAddress 0.094574 0.010421 0.50521 0.90089 0.43377 0.182 0
На основе AccuracyRatio выберите верхние предикторы для использования при создании creditscorecard объект.
varlist = metric_table.Row(metric_table.AccuracyRatio > 0.09)
varlist = 4x1 cell
{'CustIncome'}
{'CustAge' }
{'TmWBank' }
{'EmpStatus' }
Использовать creditscorecard для создания createscorecard на основе только «отсеянных» предикторов.
sc = creditscorecard(data,'IDVar', idvar,'ResponseVar', responsevar, 'PredictorVars', varlist)
sc =
creditscorecard with properties:
GoodLabel: 0
ResponseVar: 'status'
WeightsVar: ''
VarNames: {1x11 cell}
NumericPredictors: {'CustAge' 'CustIncome' 'TmWBank'}
CategoricalPredictors: {'EmpStatus'}
BinMissingData: 0
IDVar: 'CustID'
PredictorVars: {'CustAge' 'EmpStatus' 'CustIncome' 'TmWBank'}
Data: [1200x11 table]
data - Данные для creditscorecard объектДанные для creditscorecard объект, указанный как таблица MATLAB, таблица высокого уровня или расписание высокого уровня, где каждый столбец данных может быть любым из следующих типов данных:
Числовой
Логичный
Массив ячеек символьных векторов
Символьный массив
Категоричный
Последовательность
Типы данных: table
Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.
metric_table = screenpredictors(data,'IDVar','CustAge','ResponseVar','status','PredictorVars',{'CustID','CustIncome'})'IDVar' - Имя переменной идентификатора'' (по умолчанию) | символьный векторИмя переменной идентификатора, указанной как разделенная запятыми пара, состоящая из 'IDVar' и чувствительный к регистру символьный вектор. 'IDVar' данные могут быть порядковыми номерами или номерами социального страхования. Путем указания 'IDVar', можно легко опустить переменную идентификатора из переменных предиктора.
Типы данных: char
'ResponseVar' - Имя переменной ответа для индикатора «Хорошо» или «Плохо»data input (по умолчанию) | символьный векторИмя переменной ответа для индикатора «Хорошо» или «Плохо», указанного как пара, разделенная запятыми, состоящая из 'ResponseVar' и чувствительный к регистру символьный вектор. Данные переменной ответа должны быть двоичными.
Если не указано, 'ResponseVar' установлен в последний столбец ввода data по умолчанию.
Типы данных: char
'PredictorVars' - Имена переменных предиктораVarNames и {IDVar,ResponseVar}
(по умолчанию) | массив ячеек символьных векторов | строковый массивИмена переменных предиктора, указанных как пара, разделенная запятыми, состоящая из 'PredictorVars' и чувствительный к регистру массив ячеек из символьных векторов или строкового массива. По умолчанию при создании creditscorecard объект, все переменные являются предикторами, кроме IDVar и ResponseVar. Любое имя, указанное с помощью 'PredictorVars' должны отличаться от IDVar и ResponseVar имена.
Типы данных: cell | string
'WeightsVar' - Наименование переменной весов'' (по умолчанию) | символьный векторИмя переменной весов, указанной как разделенная запятыми пара, состоящая из 'WeightsVar' и чувствительный к регистру вектор символов для указания имени столбца в data таблица содержит веса строк.
Если не указать 'WeightsVar' при создании creditscorecard затем функция использует веса единиц измерения в качестве весов наблюдения.
Типы данных: char
'NumBins' - Количество (равных по частоте) ячеек для числовых предикторов20 (по умолчанию) | скалярный числовойКоличество (равных по частоте) ячеек для числовых предикторов, указанных как разделенная запятыми пара, состоящая из 'NumBins' и скалярный числовой.
Типы данных: double
'FrequencyShift' - Указывает небольшой сдвиг в таблицах частот, содержащих нулевые значения0.5 (по умолчанию) | скалярное числовое между 0 и 1Небольшой сдвиг в таблицах частот, содержащих нулевые значения, указанные как пара, разделенная запятыми, состоящая из 'FrequencyShift' и скалярное число со значением между 0 и 1.
Если таблица частот предиктора содержит «чистые» ячейки (содержащие все товары или все ячейки) после складирования данных с помощью autobinning, то функция добавляет 'FrequencyShift' значение для всех ячеек в таблице. Чтобы избежать каких-либо возмущений, установите 'FrequencyShift' кому 0.
Типы данных: double
metric_table - Расчетные значения для метрик скрининга предикторовВычисленные значения для метрик скрининга предиктора, возвращенные в виде таблицы. Каждая строка таблицы соответствует предиктору из данных входной таблицы. Столбцы таблицы содержат вычисленные значения для следующих метрик:
'InfoValue' - Информационное значение. Эта метрика измеряет силу предиктора в модели подгонки, определяя отклонение между распределениями "Goods" и "Bads".
'AccuracyRatio' - Коэффициент точности.
'AUROC' - Площадь под кривой ROC.
'Entropy' - Энтропия. Эта метрика измеряет уровень непредсказуемости в ячейках. Для проверки модели риска можно использовать энтропийную метрику.
'Gini' - Джини. Эта метрика измеряет статистическую дисперсию или неравенство в выборке данных.
'Chi2PValue' - p-значение хи-квадрата. Эта метрика вычисляется из метрики хи-квадрат и является мерой статистической разности и независимости между группами.
'PercentMissing' - Процент отсутствующих значений в предикторе. Эта метрика выражается в десятичной форме.
Эта функция поддерживает ввод data это значение задается как вектор высокого столбца, таблица высокого уровня или расписание высокого уровня. Следует отметить, что выходные данные числовых предикторов могут несколько отличаться при использовании массива высокого уровня. Категориальные предикторы возвращают одинаковые результаты для таблиц и массивов с высоким уровнем. Дополнительные сведения см. в разделе tall и Высокие Массивы.
Имеется измененная версия этого примера. Открыть этот пример с помощью изменений?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.