isoutlier

Найдите выбросы в данных

Синтаксис

TF = isoutlier(A)
TF = isoutlier(A,method)
TF = isoutlier(A,movmethod,window)
TF = isoutlier(___,dim)
TF = isoutlier(___,Name,Value)
[TF,L,U,C] = isoutlier(___)

Описание

пример

TF = isoutlier(A) возвращает логический массив, элементами которого является true, когда изолированная часть обнаруживается в соответствующем элементе A. По умолчанию изолированная часть является значением, которое является больше чем тремя масштабируемыми средними абсолютными отклонениями (MAD) далеко от медианы. Если A является матрицей или таблицей, то isoutlier работает с каждым столбцом отдельно. Если A является многомерным массивом, то isoutlier действует по первому измерению, размер которого не равняется 1.

пример

TF = isoutlier(A,method) задает метод для обнаружения выбросов. Например, isoutlier(A,'mean') возвращает true для всех элементов больше чем три стандартных отклонения от среднего значения.

пример

TF = isoutlier(A,movmethod,window) задает движущийся метод для обнаружения локальных выбросов согласно длине окна, заданной window. Например, isoutlier(A,'movmedian',5) возвращает true для всех элементов больше чем три локальных масштабированных MAD от локальной медианы в раздвижном окне, содержащем пять элементов.

пример

TF = isoutlier(___,dim) управляет по измерению dim A для любого из предыдущих синтаксисов. Например, isoutlier(A,2) работает с каждой строкой матричного A.

пример

TF = isoutlier(___,Name,Value) задает дополнительные параметры для обнаружения выбросов с помощью одного или нескольких аргументов в виде пар "имя-значение". Например, isoutlier(A,'SamplePoints',t) обнаруживает выбросы в A относительно соответствующих элементов временного вектора t.

пример

[TF,L,U,C] = isoutlier(___) также возвращает более низкие и верхние пороги и центральное значение, используемое методом определения выбросов.

Примеры

свернуть все

Найдите выбросы в векторе данных. Логическая единица в выводе указывает на местоположение изолированной части.

A = [57 59 60 100 59 58 57 58 300 61 62 60 62 58 57];
TF = isoutlier(A)
TF = 1x15 logical array

   0   0   0   1   0   0   0   0   1   0   0   0   0   0   0

Задайте выбросы как точки больше чем три стандартных отклонения от среднего значения и найдите местоположения выбросов в векторе.

A = [57 59 60 100 59 58 57 58 300 61 62 60 62 58 57];
TF = isoutlier(A,'mean')
TF = 1x15 logical array

   0   0   0   0   0   0   0   0   1   0   0   0   0   0   0

Создайте вектор данных, содержащих локальную изолированную часть.

x = -2*pi:0.1:2*pi;
A = sin(x);
A(47) = 0;

Создайте временной вектор, который соответствует данным в A.

t = datetime(2017,1,1,0,0,0) + hours(0:length(x)-1);

Задайте выбросы как точки больше чем три локальных масштабированных MAD далеко от локальной медианы в раздвижном окне. Найдите местоположения выбросов в A относительно точек в t с размером окна 5 часов. Отобразите на графике данные и обнаруженные выбросы.

TF = isoutlier(A,'movmedian',hours(5),'SamplePoints',t);
plot(t,A,t(TF),A(TF),'x')
legend('Data','Outlier')

Найдите выбросы для каждой строки матрицы.

Создайте матрицу данных, содержащих выбросы по диагонали.

A = magic(5) + diag(200*ones(1,5))
A = 5×5

   217    24     1     8    15
    23   205     7    14    16
     4     6   213    20    22
    10    12    19   221     3
    11    18    25     2   209

Найдите местоположения выбросов на основе данных в каждой строке.

TF = isoutlier(A,2)
TF = 5x5 logical array

   1   0   0   0   0
   0   1   0   0   0
   0   0   1   0   0
   0   0   0   1   0
   0   0   0   0   1

Создайте вектор данных, содержащих изолированную часть. Найдите и постройте график местоположения изолированной части, и порогов и центрального значения, определенного методом изолированной части. Центральное значение является медианой данных, и верхние и более низкие пороги являются тремя масштабируемыми MAD выше и ниже медианы.

x = 1:10;
A = [60 59 49 49 58 100 61 57 48 58];
[TF,L,U,C] = isoutlier(A);
plot(x,A,x(TF),A(TF),'x',x,L*ones(1,10),x,U*ones(1,10),x,C*ones(1,10))
legend('Original Data','Outlier','Lower Threshold','Upper Threshold','Center Value')

Входные параметры

свернуть все

Входные данные, заданные как вектор, матрица, многомерный массив, таблица или расписание.

Если A является таблицей, то ее переменные должны иметь тип double или single, или можно использовать пару "имя-значение" 'DataVariables', чтобы перечислить double или переменные single явным образом. Определение переменных полезно, когда вы работаете с таблицей, которая содержит переменные с типами данных кроме double или single.

Если A является расписанием, то isoutlier работает только с табличными элементами. Времена строки должны быть уникальными и перечислены в порядке возрастания.

Типы данных: удвойтесь | единственный | таблица | расписание

Метод для обнаружения выбросов, заданных как одно из следующего:

МетодОписание
медианаВозвращает true для элементов больше чем три масштабируемых MAD от медианы. Масштабированный MAD задан как c*median(abs(A-median(A))), где c=-1/(sqrt(2)*erfcinv(3/2)).
среднее значениеВозвращает true для элементов больше чем три стандартных отклонения от среднего значения. Этот метод быстрее, но менее устойчив, чем 'median'.
'quartiles'Возвращает true для элементов больше чем 1,5 межквартильных размаха выше верхнего квартиля или ниже более низкого квартиля. Этот метод полезен, когда данные в A не нормально распределены.
'grubbs'Применяет тест Граббса для выбросов, который удаляет одну изолированную часть на итерацию на основе тестирования гипотезы. Этот метод принимает, что данные в A нормально распределены.
'gesd'Применяется обобщенные экстремальные Studentized отклоняют тест для выбросов. Этот итеративный метод подобен 'grubbs', но может выполнить лучше, когда существует несколько выбросов, маскирующих друг друга.

Движущийся метод для обнаружения выбросов, заданных как одно из следующего:

МетодОписание
movmedianВозвращает true для элементов больше чем три локальных масштабированных MAD от локальной медианы по длине окна, заданной window.
movmeanВозвращает true для элементов больше чем три локальных стандартных отклонения от локального среднего значения по длине окна, заданной window.

Длина окна, заданная как положительный целочисленный скаляр, двухэлементный вектор положительных целых чисел, положительного скаляра длительности или двухэлементного вектора положительной длительности.

Когда window является положительным целочисленным скаляром, окно центрируется о текущем элементе и содержит элементы граничения window-1. Если window даже, то окно центрируется о текущих и предыдущих элементах.

Когда window является двухэлементным вектором положительных целых чисел [b f], окно содержит текущий элемент, элементы b назад и элементы f вперед.

Когда A является расписанием, или 'SamplePoints' задан как datetime или вектор duration, затем window должен иметь тип duration, и окна вычисляются относительно точек выборки.

Типы данных: удвойтесь | единственный | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64 | длительность

Величина для работы, заданная как положительный целый скаляр. Если значение не задано, то по умолчанию это первый размер массива, не равный 1.

Рассмотрите матричный A.

isoutlier(A,1) обнаруживает выбросы на основе данных в каждом столбце A.

isoutlier(A,2) обнаруживает выбросы на основе данных в каждой строке A.

Когда A является таблицей или расписанием, dim не поддержан. isoutlier действует вдоль каждой переменной таблицы или расписания отдельно.

Типы данных: удвойтесь | единственный | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

Аргументы в виде пар имя-значение

Укажите необязательные аргументы в виде пар ""имя, значение"", разделенных запятыми. Имя (Name) — это имя аргумента, а значение (Value) — соответствующее значение. Имя должно появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: isoutlier (A, 'среднее значение', 'ThresholdFactor', 4)

Пороговый фактор обнаружения, заданный как пара, разделенная запятой, состоящая из 'ThresholdFactor' и неотрицательного скаляра.

Для методов 'grubbs' и 'gesd', пороговым фактором обнаружения является скаляр в пределах от от 0 до 1. Значения близко к 0 результатам в меньшем числе выбросов и значения близко к 1 результату в большем числе выбросов. Пороговый фактор обнаружения по умолчанию 0.5.

Для методов 'movmedian' и 'movmean', пороговый фактор обнаружения заменяет количество масштабированного MAD или стандартных отклонений от среднего значения, которое равняется 3 по умолчанию.

Для метода 'quartile' пороговый фактор обнаружения заменяет количество межквартильных размахов, которое является 1.5 по умолчанию.

Типы данных: удвойтесь | единственный | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

Точки выборки, заданные как пара, разделенная запятой, состоящая из 'SamplePoints' и вектора. Точки выборки представляют местоположение данных в A. Точки выборки не должны быть однородно выбраны. По умолчанию вектором точек выборки является [1 2 3 ...].

Движущиеся окна заданы относительно точек выборки, которые должны быть отсортированы и содержать уникальные элементы. Например, если t является вектором времен, соответствуя входным данным, то isoutlier(rand(1,10),'movmean',3,'SamplePoints',t) имеет окно, которое представляет временной интервал между t(i)-1.5 и t(i)+1.5.

Когда вектор точек выборки имеет тип данных datetime или duration, затем движущаяся длина окна должна иметь, вводят duration.

Типы данных: удвойтесь | единственный | datetime | длительность

Табличные переменные, заданные как пара, разделенная запятой, состоящая из 'DataVariables' и имени переменной, массива ячеек имен переменных, числового вектора, логического вектора или указателя на функцию. Значение 'DataVariables' указывает, какие столбцы входной таблицы обнаружить выбросы в, и может быть одно из следующего:

  • Вектор символа, задающий единственное имя табличной переменной

  • Массив ячеек из символьных векторов, где каждый элемент является именем табличной переменной

  • Вектор индексов табличной переменной

  • Логический вектор, элементы которого каждый соответствует табличной переменной, где true включает соответствующую переменную и false, исключает его

  • Указатель на функцию, который берет таблицу в качестве входного параметра и возвращает логический скаляр

Типом данных, сопоставленным с обозначенной переменной, должен быть double или single.

Пример: 'Возраст'

Пример: {'Высота', 'Вес'}

Пример: isnumeric

Типы данных: char | ячейка | удваивается | единственный | логический | function_handle

Максимальное количество изолированной части, для метода 'gesd' только, заданный как пара, разделенная запятой, состоящая из 'MaxNumOutliers' и положительного целого числа. Значение 'MaxNumOutliers' задает максимальное количество выбросов, возвращенных методом 'gesd'. Например, isoutlier(A,'gesd','MaxNumOutliers',5) возвращает не больше, чем пять выбросов.

Значение по умолчанию для 'MaxNumOutliers' является целым числом, самым близким к 10 процентам числа элементов в A. Устанавливание большего значения для максимального количества выбросов может гарантировать, что все выбросы обнаруживаются, но за счет уменьшенной вычислительной эффективности.

Метод 'gesd' принимает, что входные данные неизолированной части выбираются от аппроксимированного нормального распределения. Когда данные не выбираются таким образом, количество возвращенных выбросов может превысить значение 'MaxNumOutliers'.

Типы данных: удвойтесь | единственный | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

Выходные аргументы

свернуть все

Индикатор Outlier, возвращенный как вектор, матрица или многомерный массив. Элементом TF является true, когда соответствующий элемент A является изолированной частью и false в противном случае. TF одного размера как A.

Типы данных: логический

Более низкий порог используется методом определения выбросов, возвращенным как скаляр, вектор, матрица, многомерный массив, таблица или расписание. Например, нижнее значение метода определения выбросов по умолчанию является тремя масштабируемыми MAD ниже медианы входных данных. L имеет тот же размер как A во всех размерностях за исключением операционной размерности, где длина равняется 1.

Типы данных: удвойтесь | единственный | таблица | расписание

Верхний порог используется методом определения выбросов, возвращенным как скаляр, вектор, матрица, многомерный массив, таблица или расписание. Например, верхнее значение метода определения выбросов по умолчанию является тремя масштабируемыми MAD выше медианы входных данных. U имеет тот же размер как A во всех размерностях за исключением операционной размерности, где длина равняется 1.

Типы данных: удвойтесь | единственный | таблица | расписание

Центральное значение используется методом определения выбросов, возвращенным как скаляр, вектор, матрица, многомерный массив, таблица или расписание. Например, центральное значение метода определения выбросов по умолчанию является медианой входных данных. C имеет тот же размер как A во всех размерностях за исключением операционной размерности, где длина равняется 1.

Типы данных: удвойтесь | единственный | таблица | расписание

Больше о

свернуть все

Среднее абсолютное отклонение

Поскольку случайная переменная векторизовала составленное из скалярных наблюдений N, среднее абсолютное отклонение (MAD) задано как

MAD = медиана (|Ai−median (A) |)

поскольку i = 1,2... N.

Масштабированный MAD задан как c*median(abs(A-median(A))) где c=-1/(sqrt(2)*erfcinv(3/2)).

Расширенные возможности

Введенный в R2017a

Была ли эта тема полезной?