Grouping variables является служебными переменными, используемыми, чтобы сгруппировать, или категоризировать, наблюдения. Группирующие переменные полезны для суммирования или визуализации данных группой. Группирующая переменная может быть любым из этих типов данных:
Числовой вектор
Логический вектор
Массив символов
StringArray
Массив ячеек из символьных векторов
Категориальный вектор
Группирующая переменная должна иметь то же количество наблюдений (строки) как таблица, массив набора данных или числовой массив, который вы группируете. Наблюдения, которые имеют то же значение группирующей переменной, принадлежат той же группе.
Например, следующие переменные включают те же группы. Каждая группирующая переменная делит пять наблюдений на две группы. Первая группа содержит первые и четвертые наблюдения. Другие три наблюдения находятся во второй группе.
Тип данных | Группирующая переменная |
---|---|
Числовой вектор | [1 2 2 1 2] |
Логический вектор | [0 1 1 0 1] |
StringArray | ["Male","Female","Female","Male","Female"] |
Массив ячеек из символьных векторов | {'Male','Female','Female','Male','Female'} |
Категориальный вектор | Male Female Female Male Female |
Используйте группирующие переменные с метками, чтобы дать каждой группе понятное имя. Категориальный вектор является эффективным и гибким выбором группирующей переменной.
Как правило, существует столько же групп сколько уникальные значения в группирующей переменной. Однако категориальные векторы могут иметь уровни, которые не представлены в данных. Группы и порядок групп зависят от типа данных группирующей переменной. Предположим, что G
является группирующей переменной.
Если G
является числовым или логическим вектором, то группы соответствуют отличным значениям в G
в отсортированном порядке уникальных значений.
Если G
является символьным массивом, массивом строк или массивом ячеек из символьных векторов, то группы соответствуют отличным элементам в G
в порядке их первого выступления.
Если G
является категориальным вектором, то группы соответствуют уникальным уровням категории в G
в порядке, возвращенном categories
.
Некоторые функции, такие как grpstats
, принимают несколько группирующих переменных, заданных как массив ячеек группирующих переменных, например, {G1,G2,G3}
. В этом случае группы заданы уникальными комбинациями значений в группирующих переменных. Порядок решен сначала по приказу первой группирующей переменной, затем по приказу второй группирующей переменной, и так далее.
Эта таблица приводит общие задачи, вы можете хотеть выполнить группирующие переменные использования.
Группировка задачи | Группирующая переменная принятия функции |
---|---|
Чертите бок о бок коробчатые диаграммы для данных в различных группах. | boxplot |
Чертите график рассеивания с маркерами, окрашенными группой. | gscatter |
Чертите матрицу графика рассеивания с маркерами, окрашенными группой. | gplotmatrix |
Вычислите итоговую статистику группой. | grpstats |
Протестируйте на различия между средними значениями группы. | anovan |
Создайте индексный вектор из группирующей переменной. | grp2idx |
Группирующим переменным можно было предоставить отсутствующие значения, вы включаете допустимый индикатор.
Тип данных группирующей переменной | Индикатор отсутствующего значения |
---|---|
Числовой вектор | NaN |
Логический вектор | (Не может отсутствовать), |
Массив символов | Строка пробелов |
StringArray | <missing> или "" |
Массив ячеек из символьных векторов | '' |
Категориальный вектор | <undefined> |