Просмотрите предикторы карты показателей кредита для прогнозирующего значения
возвращает выходную переменную, metric_table
= screenpredictors(data
)metric_table
, MATLAB® таблица, содержащая вычисленные значения для нескольких мер прогнозирующей степени для каждой переменной предиктора в data
. Используйте screenpredictors
выполнять функцию шага предварительной обработки в рабочем процессе моделирования карты показателей кредита, чтобы уменьшить количество переменных предиктора перед созданием карты показателей кредита с помощью creditscorecard
функция из Financial Toolbox™.
задает опции, использующие один или несколько аргументы пары "имя-значение" в дополнение к входным параметрам в предыдущем синтаксисе. metric_table
= screenpredictors(___,Name,Value
)
creditscorecard
ОбъектУменьшите количество переменных предиктора путем скрининга предикторов перед созданием карты результатов кредита.
Используйте CreditCardData.mat
файл для загрузки данных (с помощью набора данных из Refaat 2011).
load CreditCardData.mat
Определите 'IDVar'
и 'ResponseVar'
.
idvar = 'CustID'; responsevar = 'status';
Использование screenpredictors
вычислить метрики скрининга предиктора. Функция возвращает таблицу, содержащую значения метрик. Каждая строка таблицы соответствует предиктору из данных входов таблицы.
metric_table = screenpredictors(data,'IDVar', idvar,'ResponseVar', responsevar)
metric_table=9×7 table
InfoValue AccuracyRatio AUROC Entropy Gini Chi2PValue PercentMissing
_________ _____________ _______ _______ _______ __________ ______________
CustAge 0.18863 0.17095 0.58547 0.88729 0.42626 0.00074524 0
TmWBank 0.15719 0.13612 0.56806 0.89167 0.42864 0.0054591 0
CustIncome 0.15572 0.17758 0.58879 0.891 0.42731 0.0018428 0
TmAtAddress 0.094574 0.010421 0.50521 0.90089 0.43377 0.182 0
UtilRate 0.075086 0.035914 0.51796 0.90405 0.43575 0.45546 0
AMBalance 0.07159 0.087142 0.54357 0.90446 0.43592 0.48528 0
EmpStatus 0.048038 0.10886 0.55443 0.90814 0.4381 0.00037823 0
OtherCC 0.014301 0.044459 0.52223 0.91347 0.44132 0.047616 0
ResStatus 0.0097738 0.05039 0.5252 0.91422 0.44182 0.27875 0
metric_table = sortrows(metric_table,'AccuracyRatio','descend')
metric_table=9×7 table
InfoValue AccuracyRatio AUROC Entropy Gini Chi2PValue PercentMissing
_________ _____________ _______ _______ _______ __________ ______________
CustIncome 0.15572 0.17758 0.58879 0.891 0.42731 0.0018428 0
CustAge 0.18863 0.17095 0.58547 0.88729 0.42626 0.00074524 0
TmWBank 0.15719 0.13612 0.56806 0.89167 0.42864 0.0054591 0
EmpStatus 0.048038 0.10886 0.55443 0.90814 0.4381 0.00037823 0
AMBalance 0.07159 0.087142 0.54357 0.90446 0.43592 0.48528 0
ResStatus 0.0097738 0.05039 0.5252 0.91422 0.44182 0.27875 0
OtherCC 0.014301 0.044459 0.52223 0.91347 0.44132 0.047616 0
UtilRate 0.075086 0.035914 0.51796 0.90405 0.43575 0.45546 0
TmAtAddress 0.094574 0.010421 0.50521 0.90089 0.43377 0.182 0
На основе AccuracyRatio
metric, выберите верхние предикторы, которые будут использоваться при создании creditscorecard
объект.
varlist = metric_table.Row(metric_table.AccuracyRatio > 0.09)
varlist = 4x1 cell
{'CustIncome'}
{'CustAge' }
{'TmWBank' }
{'EmpStatus' }
Использование creditscorecard
для создания createscorecard
объект, основанный только на «экранированных» предикторах.
sc = creditscorecard(data,'IDVar', idvar,'ResponseVar', responsevar, 'PredictorVars', varlist)
sc = creditscorecard with properties: GoodLabel: 0 ResponseVar: 'status' WeightsVar: '' VarNames: {1x11 cell} NumericPredictors: {'CustAge' 'CustIncome' 'TmWBank'} CategoricalPredictors: {'EmpStatus'} BinMissingData: 0 IDVar: 'CustID' PredictorVars: {'CustAge' 'EmpStatus' 'CustIncome' 'TmWBank'} Data: [1200x11 table]
data
- Данные для creditscorecard
объектДанные для creditscorecard
объект, заданный как таблица MATLAB, длинная таблица или длинное расписание, где каждый столбец данных может быть любым из следующих типов данных:
Числовой
Логичный
Массив ячеек из символьных векторов
Символьный массив
Категоричный
Строка
Типы данных: table
Задайте необязательные разделенные разделенными запятой парами Name,Value
аргументы. Name
- имя аргумента и Value
- соответствующее значение. Name
должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN
.
metric_table = screenpredictors(data,'IDVar','CustAge','ResponseVar','status','PredictorVars',{'CustID','CustIncome'})
'IDVar'
- Имя переменной идентификатора''
(по умолчанию) | вектор символовИмя переменной идентификатора, заданное как разделенная разделенными запятой парами, состоящая из 'IDVar'
и вектор символов с учетом регистра. The 'IDVar'
данные могут быть порядковыми номерами или номерами социального страхования. Путем определения 'IDVar'
можно легко опустить переменную идентификатора из переменных предиктора.
Типы данных: char
'ResponseVar'
- Имя переменной отклика для индикатора «Хорошо» или «Плохо»data
входной (по умолчанию) | вектор символовИмя переменной отклика для индикатора «Хорошо» или «Плохо», заданное как разделенная разделенными запятой парами, состоящая из 'ResponseVar'
и вектор символов с учетом регистра. Данные переменной отклика должны быть двоичными.
Если не указано, 'ResponseVar'
устанавливается в последний столбец входа data
по умолчанию.
Типы данных: char
'PredictorVars'
- Имена переменных предиктораVarNames
и {
IDVar
, ResponseVar
}
(по умолчанию) | массив ячеек из векторов символов | строковых массивовИмена переменных предиктора, заданные как разделенная разделенными запятой парами, состоящая из 'PredictorVars'
и чувствительный к регистру массив ячеек из векторов символов или строковых массивов. По умолчанию, когда вы создаете creditscorecard
объект, все переменные являются предикторами, кроме IDVar
и ResponseVar
. Любое имя, которое вы задаете используя 'PredictorVars'
должен отличаться от IDVar
и ResponseVar
имена.
Типы данных: cell
| string
'WeightsVar'
- Имя переменной весов''
(по умолчанию) | вектор символовИмя переменной весов, заданное как разделенная разделенными запятой парами, состоящая из 'WeightsVar'
и вектор символов с учетом регистра, чтобы указать, какое имя столбца в data
таблица содержит веса строк.
Если вы не задаете 'WeightsVar'
когда вы создаете creditscorecard
объект, тогда функция использует единичные веса в качестве весов наблюдений.
Типы данных: char
'NumBins'
- Количество интервалов (равной частоты) для числовых предикторов20
(по умолчанию) | скалярным числомКоличество (одинаковых частот) интервалов для числовых предикторов, заданное как разделенная разделенными запятой парами, состоящая из 'NumBins'
и скалярным числом.
Типы данных: double
'FrequencyShift'
- Указывает на небольшой сдвиг в таблицах частот, которые содержат нулевые значения0.5
(по умолчанию) | скалярное число между 0
и 1
Малый сдвиг в таблицах частот, которые содержат нулевые значения, задается как разделенная разделенными запятой парами, состоящая из 'FrequencyShift'
и скаляр число со значением между 0
и 1
.
Если таблица частот предиктора содержит любые «чистые» интервалы (содержащие все товары или все бады) после того, как вы складываете данные с помощью autobinning
, затем функция добавляет 'FrequencyShift'
значение для всех интервалов в таблице. Чтобы избежать каких-либо возмущений, установите 'FrequencyShift'
на 0
.
Типы данных: double
metric_table
- Вычисленные значения для метрик скрининга предиктораВычисленные значения для метрик скрининга предиктора, возвращенные как таблица. Каждая строка таблицы соответствует предиктору из данных входов таблицы. Столбцы таблицы содержат вычисленные значения для следующих метрик:
'InfoValue'
- Значение информации. Эта метрика измеряет силу предиктора в модели аппроксимации путем определения отклонения между распределениями "Goods"
и "Bads"
.
'AccuracyRatio'
- Коэффициент точности.
'AUROC'
- Площадь под кривой ROC.
'Entropy'
- Энтропия. Эта метрика измеряет уровень непредсказуемости в интервалах. Можно использовать метрику энтропии, чтобы подтвердить модель риска.
'Gini'
- Джини. Эта метрика измеряет статистическую дисперсию или неравенство в выборке данных.
'Chi2PValue'
- Chi-квадрат p -значение. Эта метрика вычисляется из хи-квадратной метрики и является мерой статистического различия и независимости между группами.
'PercentMissing'
- Процент отсутствующих значений в предикторе. Эта метрика выражена в десятичной форме.
Эта функция поддерживает входные data
задается как tall вектора-столбца, длинной таблицы или длинного расписания. Обратите внимание, что выход для числовых предикторов может немного отличаться при использовании длинный массив. Категориальные предикторы возвращают те же результаты для таблиц и длинных массивов. Для получения дополнительной информации смотрите tall
и Длинные массивы.
У вас есть измененная версия этого примера. Вы хотите открыть этот пример с вашими правками?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.