Группировка переменных для разделения данных

Группирующие переменные можно использовать для разделения переменных данных на группы. Как правило, выбор сгруппированных переменных является первым шагом в рабочем процессе "Разделение-Применение-Объединение". Можно разделить данные в группы, применить функцию к каждой группе и объединить результаты. Также можно обозначить отсутствующие значения в сгруппированных переменных, так, чтобы были проигнорированы соответствующие значения в переменных данных.

Группировка переменных

Сгруппированные переменные являются переменными, используемыми, чтобы сгруппировать, или категоризировать, наблюдения — то есть, значения данных в других переменных. Сгруппированная переменная может быть любым из этих типов данных:

  • Числовой, логический, категориальный, datetime, или duration вектор

  • Массив ячеек из символьных векторов

  • Таблица, с табличными переменными любого типа данных в этом списке

Переменные данных являются переменными, которые содержат наблюдения. Сгруппированная переменная должна иметь значение, соответствующее каждому значению в переменных данных. Значения данных принадлежат той же группе, когда соответствующие значения в сгруппированной переменной являются тем же самым.

Эта таблица показывает примеры переменных данных, сгруппированных переменных и групп, что можно создать, когда вы разделяете переменные данных с помощью сгруппированных переменных.

Переменная данных

Сгруппированная переменная

Группы данных

[5 10 15 20 25 30]

[0 0 0 0 1 1]

[5 10 15 20] [25 30]

[10 20 30 40 50 60]

[1 3 3 1 2 1]

[10 40 60] [50] [20 30]

[64 72 67 69 64 68]

{'F','M','F','M','F','F'}

[64 67 64 68] [72 69]

Можно дать группы понятных имен данных, когда вы используете массивы ячеек из символьных векторов или категориальные массивы как сгруппированные переменные. Категориальный массив является эффективным и гибким выбором сгруппированной переменной.

Определение группы

Как правило, существует столько же групп, сколько существуют уникальные значения в сгруппированной переменной. (Категориальный массив также может включать категории, которые не представлены в данных.) Группы и порядок групп зависят от типа данных сгруппированной переменной.

  • Для числового, логического, datetime, или duration векторы или массивы ячеек из символьных векторов, группы соответствуют уникальным значениям, отсортированным в порядке возрастания.

  • Для категориальных массивов группы соответствуют уникальным значениям, наблюдаемым в массиве, отсортированном в порядке, возвращенном categories функция.

findgroups функция может принять несколько сгруппированных переменных, например, G = findgroups(A1,A2). Также можно включать несколько сгруппированных переменных в таблицу, например, T = table(A1,A2); G = findgroups(T). findgroups функция задает группы уникальными комбинациями значений через соответствующие элементы сгруппированных переменных. findgroups решает порядок по приказу первой сгруппированной переменной, и затем по приказу второй сгруппированной переменной, и так далее. Например, если A1 = {'a','a','b','b'} и A2 = [0 1 0 0], затем уникальными значениями через сгруппированные переменные является 'a' 0, 'a' 1, и 'b' 0, определение трех групп.

Рабочий процесс "Разделение-Применение-Объединение"

После того, как вы выберете сгруппированные переменные и разделите переменные данных в группы, можно применить функции к группам и объединить результаты. Этот рабочий процесс называется рабочим процессом "Разделение-Применение-Объединение". Можно использовать findgroups и splitapply функции вместе, чтобы анализировать группы данных в этом рабочем процессе. Эта схема показывает простой пример с помощью сгруппированной переменной Gender и переменная данных Height вычислить среднюю высоту по полу.

findgroups функция возвращает вектор чисел группы, которые задают группы на основе уникальных значений в сгруппированных переменных. splitapply использует числа группы, чтобы разделить данные в группы эффективно прежде, чем применить функцию.

Отсутствующие значения группы

Сгруппированные переменные могут иметь отсутствующие значения. Эта таблица показывает индикатор отсутствующего значения для каждого типа данных. Если сгруппированная переменная имеет отсутствующие значения, то findgroups присвоения NaN как номер группы и splitapply игнорирует соответствующие значения в переменных данных.

Тип данных сгруппированной переменной

Индикатор отсутствующего значения

Числовой

NaN

Логический

(Не может отсутствовать),

Категориальный

<undefined>

datetime

NaT

duration

NaN

Массив ячеек из символьных векторов

''

Строка

<missing>

Смотрите также

| | |

Похожие темы