подгонка

Подгонка простой модели локальных интерпретируемых моделей-агностических объяснений (LIME)

Синтаксис

newresults = fit (результаты, queyPoint, numToringPredictors)

newresults = fit (результаты, queyPoint, numToringPredictors, имя, значение)

Описание

newresults = fit(results,queryPoint,numImportantPredictors) подходит новая простая модель для указанной точки запроса (queryPoint) с использованием указанного числа или предикторов (numImportantPredictors). Функция возвращает lime объект newresults которая содержит новую простую модель.

fit использует простые опции модели, которые задаются при создании lime объект results. Можно изменить параметры, используя аргументы пары имя-значение fit функция.

пример

newresults = fit(results,queryPoint,numImportantPredictors,Name,Value) указывает дополнительные параметры, использующие один или несколько аргументов пары имя-значение. Например, можно указать 'SimpleModelType','tree' для соответствия модели дерева решений.

Примеры

свернуть все

Объяснение прогнозирования с помощью линейной простой модели

Открыть сценарий в реальном времени

Обучение регрессионной модели и создание lime объект, использующий линейную простую модель. При создании lime объект, если не указать точку запроса и количество важных предикторов, то программное обеспечение генерирует образцы синтетического набора данных, но не подходит под простую модель. Использовать функцию объекта fit для подгонки простой модели к точке запроса. Затем отобразите коэффициенты аппроксимированной линейной простой модели с помощью функции объекта plot.

Загрузить carbig набор данных, содержащий замеры автомобилей, сделанные в 1970-х и начале 1980-х годов.

load carbig

Создание таблицы, содержащей переменные предиктора Acceleration, Cylindersи так далее, а также переменная ответа MPG.

tbl = table(Acceleration,Cylinders,Displacement,Horsepower,Model_Year,Weight,MPG);

Удаление отсутствующих значений в обучающем наборе может помочь сократить потребление памяти и ускорить обучение для fitrkernel функция. Удалить отсутствующие значения в tbl.

tbl = rmmissing(tbl);

Создайте таблицу переменных предиктора, удалив переменную ответа из tbl.

tblX = removevars(tbl,'MPG');

Тренировка модели blackbox MPG с помощью fitrkernel функция.

rng('default') % For reproducibility
mdl = fitrkernel(tblX,tbl.MPG,'CategoricalPredictors',[2 5]);

Создать lime объект. Укажите набор данных предиктора, поскольку mdl не содержит данных предиктора.

results = lime(mdl,tblX)

results = 
  lime with properties:

             BlackboxModel: [1x1 RegressionKernel]
              DataLocality: 'global'
     CategoricalPredictors: [2 5]
                      Type: 'regression'
                         X: [392x6 table]
                QueryPoint: []
    NumImportantPredictors: []
          NumSyntheticData: 5000
             SyntheticData: [5000x6 table]
                    Fitted: [5000x1 double]
               SimpleModel: []
       ImportantPredictors: []
            BlackboxFitted: []
         SimpleModelFitted: []

results содержит сформированный синтетический набор данных. SimpleModel пустое свойство ([]).

Подгонка линейной простой модели для первого наблюдения в tblX. Укажите число важных предикторов для поиска как 3.

queryPoint = tblX(1,:)

queryPoint=1×6 table
    Acceleration    Cylinders    Displacement    Horsepower    Model_Year    Weight
    ____________    _________    ____________    __________    __________    ______

         12             8            307            130            70         3504

results = fit(results,queryPoint,3);

Постройте график lime объект results с помощью функции объекта plot. Чтобы отобразить существующее подчеркивание в любом имени предиктора, измените TickLabelInterpreter значение осей для 'none'.

f = plot(results);
f.CurrentAxes.TickLabelInterpreter = 'none';

Figure contains an axes. The axes with title LIME with Linear Model contains an object of type bar.

График отображает два прогноза для точки запроса, которые соответствуют свойству BlackaseFithed и свойству SimpleModelFitted results.

Горизонтальная гистограмма показывает значения коэффициентов простой модели, отсортированные по их абсолютным значениям. Поиск LIME Horsepower, Model_Year, и Cylinders в качестве важных предикторов для точки запроса.

Model_Year и Cylinders являются категориальными предикторами, имеющими несколько категорий. Для линейной простой модели программа создает одну меньшую фиктивную переменную, чем количество категорий для каждого категориального предиктора. На гистограмме отображается только самая важная фиктивная переменная. Можно проверить коэффициенты других фиктивных переменных с помощью SimpleModel имущество results. Отображение отсортированных значений коэффициентов, включая все категориальные фиктивные переменные.

[~,I] = sort(abs(results.SimpleModel.Beta),'descend');
table(results.SimpleModel.ExpandedPredictorNames(I)',results.SimpleModel.Beta(I), ...
    'VariableNames',{'Exteded Predictor Name','Coefficient'})

ans=17×2 table
      Exteded Predictor Name      Coefficient
    __________________________    ___________

    {'Horsepower'            }    -3.4485e-05
    {'Model_Year (74 vs. 70)'}    -6.1279e-07
    {'Model_Year (80 vs. 70)'}     -4.015e-07
    {'Model_Year (81 vs. 70)'}     3.4176e-07
    {'Model_Year (82 vs. 70)'}    -2.2483e-07
    {'Cylinders (6 vs. 8)'   }    -1.9024e-07
    {'Model_Year (76 vs. 70)'}     1.8136e-07
    {'Cylinders (5 vs. 8)'   }     1.7461e-07
    {'Model_Year (71 vs. 70)'}      1.558e-07
    {'Model_Year (75 vs. 70)'}     1.5456e-07
    {'Model_Year (77 vs. 70)'}      1.521e-07
    {'Model_Year (78 vs. 70)'}     1.4272e-07
    {'Model_Year (72 vs. 70)'}     6.7001e-08
    {'Model_Year (73 vs. 70)'}     4.7214e-08
    {'Cylinders (4 vs. 8)'   }     4.5118e-08
    {'Model_Year (79 vs. 70)'}    -2.2598e-08
      ⋮

Подгонка простых моделей для нескольких точек запроса

Открыть сценарий в реальном времени

Обучение модели классификации и создание lime объект, использующий простую модель дерева решений. Подгонка нескольких моделей для нескольких точек запроса.

Загрузить CreditRating_Historical набор данных. Набор данных содержит идентификаторы клиентов и их финансовые коэффициенты, отраслевые наклейки и кредитные рейтинги.

tbl = readtable('CreditRating_Historical.dat');

Создание таблицы переменных предиктора путем удаления столбцов идентификаторов и оценок клиентов из tbl.

tblX = removevars(tbl,["ID","Rating"]);

Тренируйте модель кредитных рейтингов blackbox, используя fitcecoc функция.

blackbox = fitcecoc(tblX,tbl.Rating,'CategoricalPredictors','Industry')

blackbox = 
  ClassificationECOC
           PredictorNames: {1x6 cell}
             ResponseName: 'Y'
    CategoricalPredictors: 6
               ClassNames: {'A'  'AA'  'AAA'  'B'  'BB'  'BBB'  'CCC'}
           ScoreTransform: 'none'
           BinaryLearners: {21x1 cell}
               CodingName: 'onevsone'


  Properties, Methods

Создать lime объект с blackbox модель.

rng('default') % For reproducibility
results = lime(blackbox);

Найти две точки запроса с истинными значениями рейтинга AAA и Bсоответственно.

queryPoint(1,:) = tblX(find(strcmp(tbl.Rating,'AAA'),1),:);
queryPoint(2,:) = tblX(find(strcmp(tbl.Rating,'B'),1),:)

queryPoint=2×6 table
    WC_TA    RE_TA    EBIT_TA    MVE_BVTD    S_TA     Industry
    _____    _____    _______    ________    _____    ________

    0.121    0.413     0.057      3.647      0.466       12   
    0.019    0.009     0.042      0.257      0.119        1

Подгонка линейной простой модели для первой точки запроса. Установите число важных предикторов равным 4.

newresults1 = fit(results,queryPoint(1,:),4);

Постройте график результатов LIME newresults1 для первой точки запроса. Чтобы отобразить существующее подчеркивание в любом имени предиктора, измените TickLabelInterpreter значение осей для 'none'.

f1 = plot(newresults1);
f1.CurrentAxes.TickLabelInterpreter = 'none';

Figure contains an axes. The axes with title LIME with Linear Model contains an object of type bar.

Подгонка модели дерева линейных решений для первой точки запроса.

newresults2 = fit(results,queryPoint(1,:),6,'SimpleModelType','tree');
f2 = plot(newresults2);
f2.CurrentAxes.TickLabelInterpreter = 'none';

Figure contains an axes. The axes with title LIME with Decision Tree Model contains an object of type bar.

Простые модели в newresults1 и newresults2 оба находят MVE_BVTD и RE_TA как важные предикторы.

Поместите линейную простую модель для второй точки запроса и постройте график результатов LIME для второй точки запроса.

newresults3 = fit(results,queryPoint(2,:),4);
f3 = plot(newresults3);
f3.CurrentAxes.TickLabelInterpreter = 'none';

Figure contains an axes. The axes with title LIME with Linear Model contains an object of type bar.

Прогноз от blackbox модель является B, но прогноз из простой модели не B. Если два прогноза не совпадают, можно указать меньший 'KernelWidth' значение. Программное обеспечение подходит под простую модель с использованием весов, которые более сфокусированы на выборках вблизи точки запроса. Если точка запроса является отклонением или расположена вблизи границы принятия решения, то два прогнозируемых значения могут быть разными, даже если указать небольшое 'KernelWidth' значение. В этом случае можно изменить другие аргументы пары имя-значение. Например, можно создать локальный набор синтетических данных (укажите 'DataLocality' из lime как 'local') для точки запроса и увеличить количество выборок ('NumSyntheticData' из lime или fit) в наборе синтетических данных. Можно также использовать другую метрику расстояния ('Distance' из lime или fit).

Подгонка линейной простой модели с небольшим 'KernelWidth' значение.

newresults4 = fit(results,queryPoint(2,:),4,'KernelWidth',0.01);
f4 = plot(newresults4);
f4.CurrentAxes.TickLabelInterpreter = 'none';

Figure contains an axes. The axes with title LIME with Linear Model contains an object of type bar.

Кредитные рейтинги для первой и второй точек запроса: AAA и Bсоответственно. Простые модели в newresults1 и newresults4 оба находят MVE_BVTD, RE_TA, и WC_TA как важные предикторы. Однако их значения коэффициентов различны. Графики показывают, что эти предикторы действуют по-разному в зависимости от кредитных рейтингов.

Входные аргументы

свернуть все

`results` - Результаты LIME
`lime` объект

Результаты LIME, указанные как lime объект.

`queryPoint` - Точка запроса
вектор строки числовых значений | однострочная таблица

Точка запроса, вокруг которой fit функция подходит для простой модели, определяемой как вектор строки числовых значений или однострочная таблица. queryPoint значение должно иметь тот же тип данных и то же количество столбцов, что и данные предиктора (results.X или results.SyntheticData) в lime объект results.

queryPoint не должно содержать отсутствующих значений.

Типы данных: single | double | table

`numImportantPredictors` - Количество важных предикторов для использования в простой модели
положительное целое скалярное значение

Число важных предикторов, используемых в простой модели, указанных как положительное целое скалярное значение.

Если 'SimpleModelType' является 'linear'затем программное обеспечение выбирает заданное количество важных предикторов и подходит под линейную модель выбранных предикторов.
Если 'SimpleModelType' является 'tree', то программное обеспечение определяет максимальное количество разделений решения (или узлов ветвления) как число важных предикторов, так что подходящее дерево решений использует максимум заданное число предикторов.

Типы данных: single | double

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: 'NumSyntheticData',2000,'SimpleModelType','tree' устанавливает количество образцов, генерируемых для набора синтетических данных, равным 2000, и задает простой тип модели в качестве дерева принятия решений.

`'Cov'` - Ковариационная матрица для метрики расстояния Махаланобиса
положительная определенная матрица

Ковариационная матрица для метрики расстояния Махаланобиса, заданная как разделенная запятыми пара, состоящая из 'Cov' и положительную определенную матрицу K-by-K, где K - число предикторов.

Этот аргумент допустим только в том случае, если 'Distance' является 'mahalanobis'.

Значением по умолчанию является 'Cov' значение, указанное при создании lime объект results. Дефолт 'Cov' значение lime является cov(PD,'omitrows'), где PD является данными предиктора или синтетическими данными предиктора. Если не указать 'Cov' затем программное обеспечение использует различные ковариационные матрицы при вычислении расстояний как для данных предиктора, так и для синтетических данных предиктора.

Пример: 'Cov',eye(3)

Типы данных: single | double

`'Distance'` - Метрика расстояния
вектор символов | скаляр строки | дескриптор функции

Метрика расстояния, заданная как разделенная запятыми пара, состоящая из 'Distance' и символьный вектор, строковый скаляр или дескриптор функции.

Если данные предиктора включают только непрерывные переменные, то fit поддерживает эти метрики расстояния.

Стоимость	Описание
`'euclidean'`	Евклидово расстояние.
`'seuclidean'`	Стандартизированное евклидово расстояние. Каждая разность координат между наблюдениями масштабируется делением на соответствующий элемент стандартного отклонения, `S = std(PD,'omitnan')`, где `PD` является данными предиктора или синтетическими данными предиктора. Чтобы задать другое масштабирование, используйте `'Scale'` аргумент «имя-значение».
`'mahalanobis'`	Расстояние Махаланобиса с использованием ковариации образца `PD`, `C = cov(PD,'omitrows')`. Чтобы изменить значение ковариационной матрицы, используйте `'Cov'` аргумент «имя-значение».
`'cityblock'`	Расстояние между городскими кварталами.
`'minkowski'`	Минковская дистанция. Степень по умолчанию равна 2. Чтобы указать другую степень, используйте `'P'` аргумент «имя-значение».
`'chebychev'`	Расстояние Чебычева (максимальная разность координат).
`'cosine'`	Один минус косинус включенного угла между точками (обрабатываемый как векторы).
`'correlation'`	Один минус выборочная корреляция между точками (обрабатываемая как последовательности значений).
`'spearman'`	Один минус выборка ранговой корреляции Спирмена между наблюдениями (обрабатываемыми как последовательности значений).
`@distfun`	Пользовательский дескриптор функции расстояния. Функция расстояния имеет вид function D2 = distfun(ZI,ZJ) % calculation of distance ... где `ZI` является `1`около-`t` вектор, содержащий одно наблюдение. `ZJ` является `s`около-`t` матрица, содержащая несколько наблюдений. `distfun` должен принять матрицу `ZJ` с произвольным числом наблюдений. `D2` является `s`около-`1` вектор расстояний, и `D2(k)` - расстояние между наблюдениями `ZI` и `ZJ(k,:)`. Если данные не разрежены, можно, как правило, быстрее вычислять расстояние, используя встроенную метрику расстояния вместо дескриптора функции.

Если данные предиктора включают как непрерывные, так и категориальные переменные, то fit поддерживает эти метрики расстояния.

Стоимость Описание
'goodall3'
Измененное расстояние гудолла
'ofd'
Частотное расстояние вхождения

Стоимость	Описание
`'goodall3'`	Измененное расстояние гудолла
`'ofd'`	Частотное расстояние вхождения

Определения см. в разделе Метрика расстояния.

Значением по умолчанию является 'Distance' значение, указанное при создании lime объект results. Дефолт 'Distance' значение lime является 'euclidean' если данные предиктора включают только непрерывные переменные, или 'goodall3' если данные предиктора включают как непрерывные, так и категориальные переменные.

Пример: 'Distance','ofd'

Типы данных: char | string | function_handle

`'KernelWidth'` - Ширина ядра
числовое скалярное значение

Ширина ядра квадратной экспоненциальной (или гауссовой) функции ядра, определяемая как разделенная запятыми пара, состоящая из 'KernelWidth' и числовое скалярное значение.

fit функция вычисляет расстояния между точкой запроса и выборками в наборе данных синтетического предиктора, а затем преобразует расстояния в веса с помощью возведенной в квадрат экспоненциальной функции ядра. Если опустить 'KernelWidth' значение, затем fit использует веса, которые более сфокусированы на выборках вблизи точки запроса. Для получения более подробной информации см. LIME.

Значением по умолчанию является 'KernelWidth' значение, указанное при создании lime объект results. Дефолт 'KernelWidth' значение lime составляет 0,75.

Пример: 'KernelWidth',0.5

Типы данных: single | double

`'NumNeighbors'` - Количество соседей точки запроса
положительное целое скалярное значение

Число соседей точки запроса, указанное как разделенная запятыми пара, состоящая из 'NumNeighbors' и положительное целое скалярное значение. Этот аргумент допустим только в том случае, если DataLocality имущество results является 'local'.

fit функция оценивает параметры распределения данных предиктора, используя заданное количество ближайших соседей точки запроса. Затем функция генерирует синтетические данные предиктора, используя оцененное распределение.

Если указать значение, превышающее количество наблюдений в наборе данных предиктора (results.X) в lime объект results, то fit использует все наблюдения.

Значением по умолчанию является 'NumNeighbors' значение, указанное при создании lime объект results. Дефолт 'NumNeighbors' значение lime 1500.

Пример: 'NumNeighbors',2000

Типы данных: single | double

`'NumSyntheticData'` - Количество образцов, генерируемых для набора синтетических данных
`results.NumSyntheticData` (по умолчанию) | положительное целое скалярное значение

Количество образцов, генерируемых для набора синтетических данных, указанных как пара, разделенная запятыми, состоящая из 'NumSyntheticData' и положительное целое скалярное значение. Этот аргумент допустим только в том случае, если DataLocality имущество results является 'local'.

Значением по умолчанию является NumSyntheticData значение свойства results.

Пример: 'NumSyntheticData',2500

Типы данных: single | double

`'P'` - Показатель для метрики расстояния Минковского
положительный скаляр

Экспонента для метрики расстояния Минковского, заданная как разделенная запятыми пара, состоящая из 'P' и положительный скаляр.

Этот аргумент допустим только в том случае, если 'Distance' является 'minkowski'.

Значением по умолчанию является 'P' значение, указанное при создании lime объект results. Дефолт 'P' значение lime равно 2.

Пример: 'P',3

Типы данных: single | double

`'Scale'` - Значение параметра шкалы для стандартизированной евклидовой метрики расстояния
неотрицательный числовой вектор

Значение параметра масштабирования для стандартизированной евклидовой метрики расстояния, определяемой как разделенная запятыми пара, состоящая из 'Scale' и неотрицательный числовой вектор длины K, где K - число предикторов.

Этот аргумент допустим только в том случае, если 'Distance' является 'seuclidean'.

Значением по умолчанию является 'Scale' значение, указанное при создании lime объект results. Дефолт 'Scale' значение lime является std(PD,'omitnan'), где PD является данными предиктора или синтетическими данными предиктора. Если не указать 'Scale' затем программное обеспечение использует различные параметры масштаба при вычислении расстояний как для данных предиктора, так и для синтетических данных предиктора.

Пример: 'Scale',quantile(X,0.75) - quantile(X,0.25)

Типы данных: single | double

`'SimpleModelType'` - Тип простой модели
`'linear'` | `'tree'`

Тип простой модели, указанный как разделенная запятыми пара, состоящая из 'SimpleModelType' и 'linear' или 'tree'.

'linear' - Программное обеспечение подходит для линейной модели с помощью fitrlinear для регрессии или fitclinear для классификации.
'tree' - Программное обеспечение подходит для модели дерева принятия решений с помощью fitrtree для регрессии или fitctree для классификации.

Значением по умолчанию является 'SimpleModelType' значение, указанное при создании lime объект results. Дефолт 'SimpleModelType' значение lime является 'linear'.

Пример: 'SimpleModelType','tree'

Типы данных: char | string

Выходные аргументы

свернуть все

`newresults` - Результаты LIME
`lime` объект

Результаты LIME, возвращенные как lime объект. newresults содержит новую простую модель.

Перезапись входного аргумента results, назначить вывод fit кому results:

results = fit(results,queryPoint,numImportantPredictors);

Подробнее

свернуть все

Метрики расстояния

Метрика расстояния - это функция, определяющая расстояние между двумя наблюдениями. fit поддерживает различные метрики расстояния для непрерывных переменных и сочетание непрерывных и категориальных переменных.

Метрики расстояния для непрерывных переменных
Учитывая матрицу X данных mx-на-n, которая обрабатывается как векторы строк mx (1-на-n) _x1, _x2,..., _xmx и матрица данных my-на-n Y, которая обрабатывается как мои векторы строк y1_, y2_,..., _ymy, различные расстояния между вектором xs и yt определяются следующим образом:
- Евклидово расстояние
  $_{}^{dst2} =_{(} {xs}_{} -_{yt})_{(}^{xs}$ − yt) ′.
  Евклидово расстояние - частный случай расстояния Минковского, где p = 2.
- Стандартизированное евклидово расстояние
  $_{}^{dst2} =_{(} {xs}_{} -^{yt})_{V} -_{} 1^{} ($ xs − yt) ′,
  где V - диагональная матрица n-на-n, j-й диагональный элемент которой равен (S (j)⁾ 2, где S - вектор масштабных коэффициентов для каждой размерности.
- Расстояние Махаланобиса
  $_{}^{dst2} =_{(} {xs}_{} -^{yt})_{C} -_{} 1^{} ($ xs − yt) ′,
  где C - ковариационная матрица.
- Расстояние между городскими кварталами
  $_{}_{}^{}_{}_{} dst=\sumj=1n'xsj-ytj| .$
  Расстояние городского блока - частный случай расстояния Минковского, где p = 1.
- Минковская дистанция
  $_{} \sqrt[dst=∑j=1n'xsj−ytj'pp]{_{}^{} {_{}_{}}^{}} .$
  Для особого случая p = 1 расстояние Минковского даёт расстояние городского блока. Для частного случая p = 2 расстояние Минковского даёт евклидово расстояние. Для частного случая p = ∞ дистанция Минковского даёт дистанцию Чебычева.
- Чебычевская дистанция
  $_{dst} =_{} maxj_{{|}_{xsj} -$ ytj |}.
  Дистанция Чебычева - частный случай дистанции Минковского, где p = ∞.
- Расстояние косинуса
  $_{dst} = (\frac{_{} {^{}}_{}}{\sqrt{{1−xsy′t}_{} {(^{}}_{} {xsx′s}_{)} {^{(}}_{}}}$ yty′t)).
- Корреляционное расстояние
  $_{} dst=1- \frac{_{} {\overset{}{}}_{} {(xs-x¯s)_{} {\overset{}{}}_{}}^{}}{\sqrt{(yt-y¯t)_{'} {\overset{}{}}_{} {_{} (xs-x¯s) {\overset{}{}}_{}}^{}} \sqrt{_{} (xs-x¯s) {\overset{'}{}}_{} {_{} {\overset{}{}}_{(yt−y¯t)}}^{}}}$ (yt−y¯t) ′,
  где
  ${\overset{}{}}_{} \frac{}{} \underset{}{}_{x¯s=1n∑jxsj}$
  и
  ${\overset{}{}}_{} \frac{}{} \underset{}{}_{y¯t=1n∑jytj} .$
- Расстояние Спирмена
  $_{} dst=1- \frac{_{} {\overset{}{}}_{} {(rs-r¯s)_{} {\overset{}{}}_{}}^{}}{\sqrt{(rt-r¯t)_{'} {\overset{}{}}_{} {_{} (rs-r¯s) {\overset{}{}}_{}}^{}} \sqrt{_{} (rs-r¯s) {\overset{'}{}}_{} {_{} {\overset{}{}}_{(rt−r¯t)}}^{}}}$ (rt−r¯t) ′,
  где
  - _rsj - ранг _xsj, принимаемый над x1j, x2j,... _xmx, j, как вычислено tiedrank.
  - _rtj - ранг _ytj, взятый над y1j, y2j,... _ymy, j, как вычислено tiedrank.
  - _rs и _rt являются координатными ранговыми векторами _xs и _yt, то есть _rs = (_rs1, _rs2,... _rsn) и rt = (rt1_, rt2_,... rtn_).
  - ${\overset{}{}}_{} \frac{}{} \underset{}{}_{} r¯s=1n\sumjrsj= \frac{(n +}{}$ 1) 2.
  - ${\overset{}{}}_{} \frac{}{} \underset{}{}_{} r¯t=1n\sumjrtj= \frac{(n +}{}$ 1) 2.
Метрики расстояния для сочетания непрерывных и категориальных переменных
- Измененное расстояние гудолла
  Это расстояние является вариантом расстояния Гудолла, которое назначает небольшое расстояние, если совпадающие значения встречаются нечасто независимо от частот других значений. Для несовпадений вклад предиктора в расстояние равен 1/( число переменных).
- Частотное расстояние вхождения
  Для совпадения расстояние частоты вхождения назначает нулевое расстояние. При несоответствии частотное расстояние вхождения назначает большее расстояние для менее частого значения и меньшее расстояние для более частого значения.

Алгоритмы

свернуть все

ИЗВЕСТЬ

Чтобы объяснить прогноз модели машинного обучения с использованием LIME [1], программное обеспечение генерирует синтетический набор данных и подгоняет простую интерпретируемую модель к синтетическому набору данных с помощью lime и fit, как описано на этапах 1-5.

При указании queryPoint и numImportantPredictors значения lime, то lime функция выполняет все шаги.
Если не указать queryPoint и numImportantPredictors и указать 'DataLocality' как 'global' (по умолчанию), затем lime генерирует синтетический набор данных (шаги 1-2), и fit функция подходит для простой модели (шаги 3-5).
Если не указать queryPoint и numImportantPredictors и указать 'DataLocality' как 'local', то fit функция выполняет все шаги.

lime и fit функции выполняют следующие шаги:

Создайте синтетический набор Xs данных предиктора, используя многомерное нормальное распределение для непрерывных переменных и полиномиальное распределение для каждой категориальной переменной. Можно указать количество образцов для генерации с помощью 'NumSyntheticData' аргумент «имя-значение».
- Если 'DataLocality' является 'global' (по умолчанию), то программное обеспечение оценивает параметры распределения из всего набора данных предиктора (X или данные предиктора в blackbox).
- Если 'DataLocality' является 'local', то программное обеспечение оценивает параметры распределения с использованием k-ближайших соседей точки запроса, где k - 'NumNeighbors' значение. Можно задать метрику расстояния для поиска ближайших соседей с помощью 'Distance' аргумент «имя-значение».
Программное обеспечение игнорирует отсутствующие значения в наборе данных предиктора при оценке параметров распределения.
Кроме того, можно предоставить предварительно сгенерированный пользовательский набор данных синтетического предиктора с помощью customSyntheticData входной аргумент lime.
Вычислите прогнозы _Ys для синтетического набора данных _Xs. Прогнозы являются прогнозируемыми ответами для регрессии или классифицированными метками для классификации. Программное обеспечение использует predict функции blackbox модель для вычисления прогнозов. При указании blackbox в качестве дескриптора функции, затем программное обеспечение вычисляет прогнозы, используя дескриптор функции.
Вычислите расстояния d между точкой запроса и выборками в наборе данных синтетического предиктора, используя метрику расстояния, заданную 'Distance'.
Вычислите весовые значения _wq выборок в наборе данных синтетического предиктора относительно точки запроса q, используя квадратную экспоненциальную (или гауссову) функцию ядра

$_{wq} (_{} xs) = \frac{exp}{} {(\frac{-_{12} (d}{\sqrt{} (} xs}^{,} q$ ) p λ) 2).
- _xs является образцом в наборе _Xs данных синтетического предиктора.
- d (_xs, q) - расстояние между образцом xs и точкой запроса q.
- p - число предикторов в _Xs.
- λ - ширина ядра, которую можно задать с помощью 'KernelWidth' аргумент «имя-значение». Дефолт 'KernelWidth' значение равно 0,75.
Значение веса в точке запроса равно 1, а затем сходится к нулю при увеличении значения расстояния. 'KernelWidth' значение определяет, насколько быстро значение веса сходится к нулю. Чем ниже 'KernelWidth' чем больше значение веса сходится к нулю. Поэтому алгоритм придает больший вес выборкам вблизи точки запроса. Поскольку этот алгоритм использует такие значения веса, выбранные важные предикторы и подогнанная простая модель эффективно объясняют прогнозы для синтетических данных локально, вокруг точки запроса.
Подгонка под простую модель.
- Если 'SimpleModelType' является 'linear' (по умолчанию), то программное обеспечение выбирает важные предикторы и подходит к линейной модели выбранных важных предикторов.
  - Выберите n важных предикторов ( ${\overset{}{}}_{X˜s}$ ) с помощью алгоритма поиска группового ортогонального согласования (OMP) [2][3], где n - numImportantPredictors значение. Этот алгоритм использует синтетический набор данных предиктора (_Xs), прогнозы (_Ys) и значения веса (_wq).
  - Подгоните линейную модель выбранных важных предикторов ( ${\overset{}{}}_{X˜s}$ ) к предсказаниям (_Ys), используя значения веса (_wq). Программное обеспечение использует fitrlinear для регрессии или fitclinear для классификации. Для многоклассовой модели программное обеспечение использует схему «один против всех» для создания задачи двоичной классификации. Положительный класс - это прогнозируемый класс для точки запроса из blackbox модель, а отрицательный класс относится к другим классам.
- Если 'SimpleModelType' является 'tree', то программное обеспечение подходит для модели дерева решений с помощью fitrtree для регрессии или fitctree для классификации. Программное обеспечение определяет максимальное количество разделений решений (или узлов ветвления) как число важных предикторов, так что соответствующее дерево решений использует максимум заданное число предикторов.

Ссылки

[1] Рибейро, Марко Тулио, С. Сингх и К. Гестрин. "Почему я должен доверять вам?": Объяснение предсказаний любого классификатора. " В трудах 22-й Международной конференции ACM SIGKDD по открытию знаний и анализу данных, 1135-44. Сан-Франциско, Калифорния: ACM, 2016.

[2] Свирш, Гжегож, Наоки Абэ и Аурели Лосано. «Сгруппированное ортогональное совпадение для выбора и прогнозирования переменных». Достижения в системах обработки нейронной информации (2009): 1150-58.

[3] Лосано, Аурели К., Гжегож Свиршч и Наоки Абэ. «Поиск ортогонального соответствия группы для логистической регрессии». Материалы четырнадцатой Международной конференции по искусственному интеллекту и статистике (2011 год): 452-60.

См. также

lime | plot

Темы

Интерпретировать модели машинного обучения

Представлен в R2020b

Документация

подгонка

Синтаксис

Описание

Примеры

Объяснение прогнозирования с помощью линейной простой модели

Подгонка простых моделей для нескольких точек запроса

Входные аргументы

`results` - Результаты LIME
`lime` объект

`queryPoint` - Точка запроса
вектор строки числовых значений | однострочная таблица

`numImportantPredictors` - Количество важных предикторов для использования в простой модели
положительное целое скалярное значение

Аргументы пары «имя-значение»

`'Cov'` - Ковариационная матрица для метрики расстояния Махаланобиса
положительная определенная матрица

`'Distance'` - Метрика расстояния
вектор символов | скаляр строки | дескриптор функции

`'KernelWidth'` - Ширина ядра
числовое скалярное значение

`'NumNeighbors'` - Количество соседей точки запроса
положительное целое скалярное значение

`'NumSyntheticData'` - Количество образцов, генерируемых для набора синтетических данных
`results.NumSyntheticData` (по умолчанию) | положительное целое скалярное значение

`'P'` - Показатель для метрики расстояния Минковского
положительный скаляр

`'Scale'` - Значение параметра шкалы для стандартизированной евклидовой метрики расстояния
неотрицательный числовой вектор

`'SimpleModelType'` - Тип простой модели
`'linear'` | `'tree'`

Выходные аргументы

`newresults` - Результаты LIME
`lime` объект

Подробнее

Метрики расстояния

Алгоритмы

ИЗВЕСТЬ

Ссылки

См. также

Темы

Документация по инструментам для статистического и машинного обучения

Поддержка

Документация

подгонка

Синтаксис

Описание

Примеры

Объяснение прогнозирования с помощью линейной простой модели

Подгонка простых моделей для нескольких точек запроса

Входные аргументы

results - Результаты LIME lime объект

queryPoint - Точка запроса вектор строки числовых значений | однострочная таблица

numImportantPredictors - Количество важных предикторов для использования в простой модели положительное целое скалярное значение

Аргументы пары «имя-значение»

'Cov' - Ковариационная матрица для метрики расстояния Махаланобиса положительная определенная матрица

'Distance' - Метрика расстояния вектор символов | скаляр строки | дескриптор функции

'KernelWidth' - Ширина ядра числовое скалярное значение

'NumNeighbors' - Количество соседей точки запроса положительное целое скалярное значение

'NumSyntheticData' - Количество образцов, генерируемых для набора синтетических данных results.NumSyntheticData (по умолчанию) | положительное целое скалярное значение

'P' - Показатель для метрики расстояния Минковского положительный скаляр

'Scale' - Значение параметра шкалы для стандартизированной евклидовой метрики расстояния неотрицательный числовой вектор

'SimpleModelType' - Тип простой модели 'linear' | 'tree'

Выходные аргументы

newresults - Результаты LIME lime объект

Подробнее

Метрики расстояния

Алгоритмы

ИЗВЕСТЬ

Ссылки

См. также

Темы

Документация по инструментам для статистического и машинного обучения

Поддержка

`results` - Результаты LIME
`lime` объект

`queryPoint` - Точка запроса
вектор строки числовых значений | однострочная таблица

`numImportantPredictors` - Количество важных предикторов для использования в простой модели
положительное целое скалярное значение

`'Cov'` - Ковариационная матрица для метрики расстояния Махаланобиса
положительная определенная матрица

`'Distance'` - Метрика расстояния
вектор символов | скаляр строки | дескриптор функции

`'KernelWidth'` - Ширина ядра
числовое скалярное значение

`'NumNeighbors'` - Количество соседей точки запроса
положительное целое скалярное значение

`'NumSyntheticData'` - Количество образцов, генерируемых для набора синтетических данных
`results.NumSyntheticData` (по умолчанию) | положительное целое скалярное значение

`'P'` - Показатель для метрики расстояния Минковского
положительный скаляр

`'Scale'` - Значение параметра шкалы для стандартизированной евклидовой метрики расстояния
неотрицательный числовой вектор

`'SimpleModelType'` - Тип простой модели
`'linear'` | `'tree'`

`newresults` - Результаты LIME
`lime` объект