Экранируйте предикторы протокола результатов кредита на прогнозирующее значение
возвращает выходную переменную, metric_table
= screenpredictors(data)metric_table, таблица MATLAB®, содержащая расчетные значения для нескольких мер предсказательной силы для каждого переменного предиктора в data. Используйте screenpredictors функционируйте как шаг предварительной обработки в Протоколе результатов Кредита, Моделируя Рабочий процесс, чтобы сократить количество переменных предикторов, прежде чем вы создадите протокол результатов кредита с помощью creditscorecard функция от Financial Toolbox™.
задает опции с помощью одного или нескольких аргументов пары "имя-значение" в дополнение к входным параметрам в предыдущем синтаксисе. metric_table
= screenpredictors(___,Name,Value)
creditscorecard ОбъектСократите количество переменных предикторов путем экранирования предикторов, прежде чем вы создадите протокол результатов кредита.
Используйте CreditCardData.mat файл, чтобы загрузить данные (использующий набор данных от Refaat 2011).
load CreditCardDataЗадайте 'IDVar' и 'ResponseVar'.
idvar = 'CustID'; responsevar = 'status';
Используйте screenpredictors вычислить метрики экранирования предиктора. Функция возвращает таблицу, содержащую метрические значения. Каждая строка таблицы соответствует предиктору из данных о входной таблице.
metric_table = screenpredictors(data,'IDVar', idvar,'ResponseVar', responsevar)
metric_table=9×7 table
InfoValue AccuracyRatio AUROC Entropy Gini Chi2PValue PercentMissing
_________ _____________ _______ _______ _______ __________ ______________
CustAge 0.18863 0.17095 0.58547 0.88729 0.42626 0.00074524 0
TmWBank 0.15719 0.13612 0.56806 0.89167 0.42864 0.0054591 0
CustIncome 0.15572 0.17758 0.58879 0.891 0.42731 0.0018428 0
TmAtAddress 0.094574 0.010421 0.50521 0.90089 0.43377 0.182 0
UtilRate 0.075086 0.035914 0.51796 0.90405 0.43575 0.45546 0
AMBalance 0.07159 0.087142 0.54357 0.90446 0.43592 0.48528 0
EmpStatus 0.048038 0.10886 0.55443 0.90814 0.4381 0.00037823 0
OtherCC 0.014301 0.044459 0.52223 0.91347 0.44132 0.047616 0
ResStatus 0.0097738 0.05039 0.5252 0.91422 0.44182 0.27875 0
metric_table = sortrows(metric_table,'AccuracyRatio','descend')
metric_table=9×7 table
InfoValue AccuracyRatio AUROC Entropy Gini Chi2PValue PercentMissing
_________ _____________ _______ _______ _______ __________ ______________
CustIncome 0.15572 0.17758 0.58879 0.891 0.42731 0.0018428 0
CustAge 0.18863 0.17095 0.58547 0.88729 0.42626 0.00074524 0
TmWBank 0.15719 0.13612 0.56806 0.89167 0.42864 0.0054591 0
EmpStatus 0.048038 0.10886 0.55443 0.90814 0.4381 0.00037823 0
AMBalance 0.07159 0.087142 0.54357 0.90446 0.43592 0.48528 0
ResStatus 0.0097738 0.05039 0.5252 0.91422 0.44182 0.27875 0
OtherCC 0.014301 0.044459 0.52223 0.91347 0.44132 0.047616 0
UtilRate 0.075086 0.035914 0.51796 0.90405 0.43575 0.45546 0
TmAtAddress 0.094574 0.010421 0.50521 0.90089 0.43377 0.182 0
На основе AccuracyRatio метрика, выберите главные предикторы, чтобы использовать, когда вы создадите creditscorecard объект.
varlist = metric_table.Row(metric_table.AccuracyRatio > 0.09)
varlist = 4x1 cell
{'CustIncome'}
{'CustAge' }
{'TmWBank' }
{'EmpStatus' }
Используйте creditscorecard создать createscorecard основанный на объектах только на "экранированных" предикторах.
sc = creditscorecard(data,'IDVar', idvar,'ResponseVar', responsevar, 'PredictorVars', varlist)
sc =
creditscorecard with properties:
GoodLabel: 0
ResponseVar: 'status'
WeightsVar: ''
VarNames: {1x11 cell}
NumericPredictors: {'CustAge' 'CustIncome' 'TmWBank'}
CategoricalPredictors: {'EmpStatus'}
BinMissingData: 0
IDVar: 'CustID'
PredictorVars: {'CustAge' 'EmpStatus' 'CustIncome' 'TmWBank'}
Data: [1200x11 table]
data — Данные для creditscorecard объектДанные для creditscorecard объект в виде таблицы MATLAB, длинной таблицы или длинного расписания, где каждый столбец данных может быть любым из следующих типов данных:
Числовой
Логический
Массив ячеек из символьных векторов
Массив символов
Категориальный
Строка
Типы данных: table
Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.
metric_table = screenpredictors(data,'IDVar','CustAge','ResponseVar','status','PredictorVars',{'CustID','CustIncome'})'IDVar' — Имя переменной идентификатора'' (значение по умолчанию) | вектор символовИмя переменной идентификатора в виде разделенной запятой пары, состоящей из 'IDVar' и чувствительный к регистру вектор символов. 'IDVar' данные могут быть порядковыми числами или Номерами социального страхования. Путем определения 'IDVar', можно не использовать переменную идентификатора из переменных предикторов легко.
Типы данных: char
'ResponseVar' — Имя переменной отклика для индикатора “Good” или “Bad”data введите (значение по умолчанию) | вектор символовИмя переменной отклика для индикатора “Good” или “Bad” в виде разделенной запятой пары, состоящей из 'ResponseVar' и чувствительный к регистру вектор символов. Данные о переменной отклика должны быть двоичным файлом.
Если не заданный, 'ResponseVar' установлен в последний столбец входа data по умолчанию.
Типы данных: char
'PredictorVars' — Имена переменных предикторовVarNames и {IDVar, ResponseVar}
(значение по умолчанию) | массив ячеек из символьных векторов | массив строкИмена переменных предикторов в виде разделенной запятой пары, состоящей из 'PredictorVars' и чувствительный к регистру массив ячеек из символьных векторов или массив строк. По умолчанию, когда вы создаете creditscorecard объект, все переменные являются предикторами за исключением IDVar и ResponseVar. Любое имя вы задаете использование 'PredictorVars' должен отличаться от IDVar и ResponseVar имена.
Типы данных: cell | string
'WeightsVar' — Имя переменной весов'' (значение по умолчанию) | вектор символовИмя переменной весов в виде разделенной запятой пары, состоящей из 'WeightsVar' и чувствительный к регистру вектор символов, чтобы указать, который имя столбца в data таблица содержит веса строки.
Если вы не задаете 'WeightsVar' когда вы создаете creditscorecard объект, затем функция использует модульные веса в качестве весов наблюдения.
Типы данных: char
'NumBins' — Количество (равняются частоте), интервалы для числовых предикторов (значение по умолчанию) | числовой скалярКоличество (равняются частоте), интервалы для числовых предикторов в виде разделенной запятой пары, состоящей из 'NumBins' и числовой скаляр.
Типы данных: double
'FrequencyShift' — Указывает на маленький сдвиг в таблицах частот, которые содержат нулевые записи (значение по умолчанию) | скаляр, числовой между 0 и 1Маленький сдвиг в таблицах частот, которые содержат нулевые записи в виде разделенной запятой пары, состоящей из 'FrequencyShift' и скаляр, числовой со значением между 0 и 1.
Если таблица частот предиктора содержит какие-либо "чистые" интервалы (содержащий все товары или весь bads) после вас интервал использование данных autobinning, затем функция добавляет 'FrequencyShift' значение ко всем интервалам в таблице. Чтобы избежать любого возмущения, установите 'FrequencyShift' к 0.
Типы данных: double
metric_table — Расчетные значения для метрик экранирования предиктораРасчетные значения для метрик экранирования предиктора, возвращенных как таблица. Каждая строка таблицы соответствует предиктору из данных о входной таблице. Столбцы таблицы содержат вычисленные значения для следующих метрик:
'InfoValue' — Информационное значение. Эта метрика измеряет силу предиктора в подходящей модели путем определения отклонения между распределениями "Goods" и "Bads".
'AccuracyRatio' — Отношение точности.
'AUROC' — Область под кривой ROC.
'Entropy' — Энтропия. Эта метрика измеряет уровень непредсказуемости в интервалах. Можно использовать энтропийную метрику, чтобы подтвердить модель риска.
'Gini' — Gini. Эта метрика измеряет статистическую дисперсию или неравенство в рамках выборки данных.
'Chi2PValue' — Хи-квадрат p - значение. Эта метрика вычисляется из метрики хи-квадрата и является мерой статистической разницы и независимости между группами.
'PercentMissing' — Процент отсутствующих значений в предикторе. Эта метрика описывается в десятичной форме.
Эта функция поддерживает вход data это задано как высокий вектор-столбец, длинная таблица или длинное расписание. Обратите внимание на то, что выход для числовых предикторов может немного отличаться при использовании длинного массива. Категориальные предикторы возвращают те же результаты для таблиц и длинных массивов. Для получения дополнительной информации смотрите tall и длинные массивы.
У вас есть модифицированная версия этого примера. Вы хотите открыть этот пример со своими редактированиями?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.