Группировка переменных

Что такое группирующие переменные?

Grouping variables является служебными переменными, используемыми, чтобы сгруппировать, или категоризировать, наблюдения. Группирующие переменные полезны для суммирования или визуализации данных группой. Группирующая переменная может быть любым из этих типов данных:

  • Числовой вектор

  • Логический вектор

  • Массив символов

  • StringArray

  • Массив ячеек из символьных векторов

  • Категориальный вектор

Группирующая переменная должна иметь то же количество наблюдений (строки) как таблица, массив набора данных или числовой массив, который вы группируете. Наблюдения, которые имеют то же значение группирующей переменной, принадлежат той же группе.

Например, следующие переменные включают те же группы. Каждая группирующая переменная делит пять наблюдений на две группы. Первая группа содержит первые и четвертые наблюдения. Другие три наблюдения находятся во второй группе.

Тип данныхГруппирующая переменная
Числовой вектор[1 2 2 1 2]
Логический вектор[0 1 1 0 1]
StringArray["Male","Female","Female","Male","Female"]
Массив ячеек из символьных векторов{'Male','Female','Female','Male','Female'}
Категориальный векторMale Female Female Male Female

Используйте группирующие переменные с метками, чтобы дать каждой группе понятное имя. Категориальный вектор является эффективным и гибким выбором группирующей переменной.

Определение группы

Как правило, существует столько же групп сколько уникальные значения в группирующей переменной. Однако категориальные векторы могут иметь уровни, которые не представлены в данных. Группы и порядок групп зависят от типа данных группирующей переменной. Предположим, что G является группирующей переменной.

  • Если G является числовым или логическим вектором, то группы соответствуют отличным значениям в G в отсортированном порядке уникальных значений.

  • Если G является символьным массивом, массивом строк или массивом ячеек из символьных векторов, то группы соответствуют отличным элементам в G в порядке их первого выступления.

  • Если G является категориальным вектором, то группы соответствуют уникальным уровням категории в G в порядке, возвращенном categories.

Некоторые функции, такие как grpstats, принимают несколько группирующих переменных, заданных как массив ячеек группирующих переменных, например, {G1,G2,G3}. В этом случае группы заданы уникальными комбинациями значений в группирующих переменных. Порядок решен сначала по приказу первой группирующей переменной, затем по приказу второй группирующей переменной, и так далее.

Анализ Используя группирующие переменные

Эта таблица приводит общие задачи, вы можете хотеть выполнить группирующие переменные использования.

Группировка задачиГруппирующая переменная принятия функции
Чертите бок о бок коробчатые диаграммы для данных в различных группах.boxplot
Чертите график рассеивания с маркерами, окрашенными группой.gscatter
Чертите матрицу графика рассеивания с маркерами, окрашенными группой.gplotmatrix
Вычислите итоговую статистику группой.grpstats
Протестируйте на различия между средними значениями группы.anovan
Создайте индексный вектор из группирующей переменной.grp2idx

Отсутствующие значения группы

Группирующим переменным можно было предоставить отсутствующие значения, вы включаете допустимый индикатор.

Тип данных группирующей переменнойИндикатор отсутствующего значения
Числовой векторNaN
Логический вектор(Не может отсутствовать),
Массив символовСтрока пробелов
StringArray<missing> или ""
Массив ячеек из символьных векторов''
Категориальный вектор<undefined>

Смотрите также

Связанные примеры

Больше о