Grouping variables является служебными переменными, используемыми, чтобы сгруппировать, или категоризировать, наблюдения. Сгруппированные переменные полезны для суммирования или визуализации данных группой. Сгруппированная переменная может быть любым из этих типов данных:
Числовой вектор
Логический вектор
Массив символов
Массив строк
Массив ячеек из символьных векторов
Категориальный вектор
Сгруппированная переменная должна иметь то же количество наблюдений (строки) как таблица, массив набора данных или числовой массив, который вы группируете. Наблюдения, которые имеют то же значение сгруппированной переменной, принадлежат той же группе.
Например, следующие переменные включают те же группы. Каждая сгруппированная переменная делит пять наблюдений на две группы. Первая группа содержит первые и четвертые наблюдения. Другие три наблюдения находятся во второй группе.
Тип данных | Сгруппированная переменная |
---|---|
Числовой вектор | [1 2 2 1 2]
|
Логический вектор | [0 1 1 0 1]
|
Массив строк | ["Male","Female","Female","Male","Female"] |
Массив ячеек из символьных векторов | {'Male','Female','Female','Male','Female'} |
Категориальный вектор | Male Female Female Male Female |
Используйте сгруппированные переменные с метками, чтобы дать каждой группе понятное имя. Категориальный вектор является эффективным и гибким выбором сгруппированной переменной.
Как правило, существует столько же групп сколько уникальные значения в сгруппированной переменной. Однако категориальные векторы могут иметь уровни, которые не представлены в данных. Группы и порядок групп зависят от типа данных сгруппированной переменной. Предположим G
сгруппированная переменная.
Если G
числовой или логический вектор, затем группы соответствуют отличным значениям в G
, в отсортированном порядке уникальных значений.
Если G
символьный массив, массив строк или массив ячеек из символьных векторов, затем группы соответствуют отличным элементам в G
, в порядке их первого выступления.
Если G
категориальный вектор, затем группы соответствуют уникальным уровням категории в G
, в порядке, возвращенном categories
.
Некоторые функции, такие как grpstats
, примите несколько сгруппированных переменных, заданных как массив ячеек сгруппированных переменных, например, {G1,G2,G3}
. В этом случае группы заданы уникальными комбинациями значений в сгруппированных переменных. Порядок решен сначала по приказу первой сгруппированной переменной, затем по приказу второй сгруппированной переменной, и так далее.
Эта таблица приводит общие задачи, вы можете хотеть выполнить сгруппированные переменные использования.
Группировка задачи | Сгруппированная переменная принятия функции |
---|---|
Чертите рядом друг с другом диаграммы для данных в различных группах. | boxplot |
Чертите график рассеивания с маркерами, окрашенными группой. | gscatter |
Чертите матрицу графика рассеивания с маркерами, окрашенными группой. | gplotmatrix |
Вычислите итоговую статистику группой. | grpstats |
Протестируйте на различия между средними значениями группы. | anovan |
Создайте вектор индекса из сгруппированной переменной. | grp2idx |
Сгруппированным переменным можно было предоставить отсутствующие значения, вы включаете допустимый индикатор.
Тип данных сгруппированной переменной | Индикатор отсутствующего значения |
---|---|
Числовой вектор | NaN |
Логический вектор | (Не может отсутствовать), |
Массив символов | Строка пробелов |
Массив строк | <missing> или "" |
Массив ячеек из символьных векторов | '' |
Категориальный вектор | <undefined> |