Экранируйте предикторы протокола результатов кредита на прогнозирующее значение
возвращает выходную переменную, metric_table
= screenpredictors(data
)metric_table
, таблица MATLAB®, содержащая расчетные значения для нескольких мер предсказательной силы для каждого переменного предиктора в data
. Используйте screenpredictors
функционируйте как шаг предварительной обработки в Протоколе результатов Кредита, Моделируя Рабочий процесс, чтобы сократить количество переменных предикторов, прежде чем вы создадите протокол результатов кредита с помощью creditscorecard
функция от Financial Toolbox™.
задает опции с помощью одного или нескольких аргументов пары "имя-значение" в дополнение к входным параметрам в предыдущем синтаксисе. metric_table
= screenpredictors(___,Name,Value
)
creditscorecard
ОбъектСократите количество переменных предикторов путем экранирования предикторов, прежде чем вы создадите протокол результатов кредита.
Используйте CreditCardData.mat
файл, чтобы загрузить данные (использующий набор данных от Refaat 2011).
load CreditCardData
Задайте 'IDVar'
и 'ResponseVar'
.
idvar = 'CustID'; responsevar = 'status';
Используйте screenpredictors
вычислить метрики экранирования предиктора. Функция возвращает таблицу, содержащую метрические значения. Каждая строка таблицы соответствует предиктору из данных о входной таблице.
metric_table = screenpredictors(data,'IDVar', idvar,'ResponseVar', responsevar)
metric_table=9×7 table
InfoValue AccuracyRatio AUROC Entropy Gini Chi2PValue PercentMissing
_________ _____________ _______ _______ _______ __________ ______________
CustAge 0.18863 0.17095 0.58547 0.88729 0.42626 0.00074524 0
TmWBank 0.15719 0.13612 0.56806 0.89167 0.42864 0.0054591 0
CustIncome 0.15572 0.17758 0.58879 0.891 0.42731 0.0018428 0
TmAtAddress 0.094574 0.010421 0.50521 0.90089 0.43377 0.182 0
UtilRate 0.075086 0.035914 0.51796 0.90405 0.43575 0.45546 0
AMBalance 0.07159 0.087142 0.54357 0.90446 0.43592 0.48528 0
EmpStatus 0.048038 0.10886 0.55443 0.90814 0.4381 0.00037823 0
OtherCC 0.014301 0.044459 0.52223 0.91347 0.44132 0.047616 0
ResStatus 0.0097738 0.05039 0.5252 0.91422 0.44182 0.27875 0
metric_table = sortrows(metric_table,'AccuracyRatio','descend')
metric_table=9×7 table
InfoValue AccuracyRatio AUROC Entropy Gini Chi2PValue PercentMissing
_________ _____________ _______ _______ _______ __________ ______________
CustIncome 0.15572 0.17758 0.58879 0.891 0.42731 0.0018428 0
CustAge 0.18863 0.17095 0.58547 0.88729 0.42626 0.00074524 0
TmWBank 0.15719 0.13612 0.56806 0.89167 0.42864 0.0054591 0
EmpStatus 0.048038 0.10886 0.55443 0.90814 0.4381 0.00037823 0
AMBalance 0.07159 0.087142 0.54357 0.90446 0.43592 0.48528 0
ResStatus 0.0097738 0.05039 0.5252 0.91422 0.44182 0.27875 0
OtherCC 0.014301 0.044459 0.52223 0.91347 0.44132 0.047616 0
UtilRate 0.075086 0.035914 0.51796 0.90405 0.43575 0.45546 0
TmAtAddress 0.094574 0.010421 0.50521 0.90089 0.43377 0.182 0
На основе AccuracyRatio
метрика, выберите главные предикторы, чтобы использовать, когда вы создадите creditscorecard
объект.
varlist = metric_table.Row(metric_table.AccuracyRatio > 0.09)
varlist = 4x1 cell
{'CustIncome'}
{'CustAge' }
{'TmWBank' }
{'EmpStatus' }
Используйте creditscorecard
создать createscorecard
основанный на объектах только на "экранированных" предикторах.
sc = creditscorecard(data,'IDVar', idvar,'ResponseVar', responsevar, 'PredictorVars', varlist)
sc = creditscorecard with properties: GoodLabel: 0 ResponseVar: 'status' WeightsVar: '' VarNames: {1x11 cell} NumericPredictors: {'CustAge' 'CustIncome' 'TmWBank'} CategoricalPredictors: {'EmpStatus'} BinMissingData: 0 IDVar: 'CustID' PredictorVars: {'CustAge' 'EmpStatus' 'CustIncome' 'TmWBank'} Data: [1200x11 table]
data
— Данные для creditscorecard
объектДанные для creditscorecard
объект в виде таблицы MATLAB, длинной таблицы или длинного расписания, где каждый столбец данных может быть любым из следующих типов данных:
Числовой
Логический
Массив ячеек из символьных векторов
Массив символов
Категориальный
Строка
Типы данных: table
Задайте дополнительные разделенные запятой пары Name,Value
аргументы. Name
имя аргумента и Value
соответствующее значение. Name
должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN
.
metric_table = screenpredictors(data,'IDVar','CustAge','ResponseVar','status','PredictorVars',{'CustID','CustIncome'})
'IDVar'
— Имя переменной идентификатора''
(значение по умолчанию) | вектор символовИмя переменной идентификатора в виде разделенной запятой пары, состоящей из 'IDVar'
и чувствительный к регистру вектор символов. 'IDVar'
данные могут быть порядковыми числами или Номерами социального страхования. Путем определения 'IDVar'
, можно не использовать переменную идентификатора из переменных предикторов легко.
Типы данных: char
'ResponseVar'
— Имя переменной отклика для индикатора “Good” или “Bad”data
введите (значение по умолчанию) | вектор символовИмя переменной отклика для индикатора “Good” или “Bad” в виде разделенной запятой пары, состоящей из 'ResponseVar'
и чувствительный к регистру вектор символов. Данные о переменной отклика должны быть двоичным файлом.
Если не заданный, 'ResponseVar'
установлен в последний столбец входа data
по умолчанию.
Типы данных: char
'PredictorVars'
— Имена переменных предикторовVarNames
и {
IDVar
, ResponseVar
}
(значение по умолчанию) | массив ячеек из символьных векторов | массив строкИмена переменных предикторов в виде разделенной запятой пары, состоящей из 'PredictorVars'
и чувствительный к регистру массив ячеек из символьных векторов или массив строк. По умолчанию, когда вы создаете creditscorecard
объект, все переменные являются предикторами за исключением IDVar
и ResponseVar
. Любое имя вы задаете использование 'PredictorVars'
должен отличаться от IDVar
и ResponseVar
имена.
Типы данных: cell
| string
'WeightsVar'
— Имя переменной весов''
(значение по умолчанию) | вектор символовИмя переменной весов в виде разделенной запятой пары, состоящей из 'WeightsVar'
и чувствительный к регистру вектор символов, чтобы указать, который имя столбца в data
таблица содержит веса строки.
Если вы не задаете 'WeightsVar'
когда вы создаете creditscorecard
объект, затем функция использует модульные веса в качестве весов наблюдения.
Типы данных: char
'NumBins'
— Количество (равняются частоте), интервалы для числовых предикторов
(значение по умолчанию) | числовой скалярКоличество (равняются частоте), интервалы для числовых предикторов в виде разделенной запятой пары, состоящей из 'NumBins'
и числовой скаляр.
Типы данных: double
'FrequencyShift'
— Указывает на маленький сдвиг в таблицах частот, которые содержат нулевые записи
(значение по умолчанию) | скаляр, числовой между 0
и 1
Маленький сдвиг в таблицах частот, которые содержат нулевые записи в виде разделенной запятой пары, состоящей из 'FrequencyShift'
и скаляр, числовой со значением между 0
и 1
.
Если таблица частот предиктора содержит какие-либо "чистые" интервалы (содержащий все товары или весь bads) после вас интервал использование данных autobinning
, затем функция добавляет 'FrequencyShift'
значение ко всем интервалам в таблице. Чтобы избежать любого возмущения, установите 'FrequencyShift'
к 0
.
Типы данных: double
metric_table
— Расчетные значения для метрик экранирования предиктораРасчетные значения для метрик экранирования предиктора, возвращенных как таблица. Каждая строка таблицы соответствует предиктору из данных о входной таблице. Столбцы таблицы содержат вычисленные значения для следующих метрик:
'InfoValue'
— Информационное значение. Эта метрика измеряет силу предиктора в подходящей модели путем определения отклонения между распределениями "Goods"
и "Bads"
.
'AccuracyRatio'
— Отношение точности.
'AUROC'
— Область под кривой ROC.
'Entropy'
— Энтропия. Эта метрика измеряет уровень непредсказуемости в интервалах. Можно использовать энтропийную метрику, чтобы подтвердить модель риска.
'Gini'
— Gini. Эта метрика измеряет статистическую дисперсию или неравенство в рамках выборки данных.
'Chi2PValue'
— Хи-квадрат p - значение. Эта метрика вычисляется из метрики хи-квадрата и является мерой статистической разницы и независимости между группами.
'PercentMissing'
— Процент отсутствующих значений в предикторе. Эта метрика описывается в десятичной форме.
Эта функция поддерживает вход data
это задано как высокий вектор-столбец, длинная таблица или длинное расписание. Обратите внимание на то, что выход для числовых предикторов может немного отличаться при использовании длинного массива. Категориальные предикторы возвращают те же результаты для таблиц и длинных массивов. Для получения дополнительной информации смотрите tall
и длинные массивы.
У вас есть модифицированная версия этого примера. Вы хотите открыть этот пример со своими редактированиями?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.