Примечание
nominal
и ordinal
типы данных массива не рекомендуются. Чтобы представлять упорядоченный и неупорядоченные дискретные, нечисловые данные, используйте тип данных Категориальных массивов вместо этого.
При работе с категориальными переменными и их уровнями, вы столкнетесь с некоторыми типичными проблемами. Эта таблица суммирует функции, которые можно использовать с номинальными или порядковыми массивами, чтобы управлять уровнями категории. Для дополнительных функций введите methods nominal
или methods ordinal
в командной строке, или смотрите nominal
и ordinal
страницы с описанием.
Задача | Функция |
---|---|
Добавьте новые уровни категории | addlevels |
Пропустите уровни категории | droplevels |
Объедините уровни категории | mergelevels |
Переупорядочьте уровни категории | reorderlevels |
Считайте количество наблюдений в каждой категории | levelcounts |
Измените метку или имя уровней категории | setlabels |
Создайте фактор взаимодействия | times |
Найдите наблюдения, которые не находятся в заданной категории | isundefined |
Можно использовать номинальные и порядковые массивы во множестве статистических анализов. Например, вы можете хотеть вычислить описательную статистику для данных, сгруппированных уровнями категории, провести статистические тесты на различиях между средними значениями категории или выполнить регрессионный анализ с помощью категориальных предикторов.
Функции Statistics and Machine Learning Toolbox™, которые принимают сгруппированную переменную как входной параметр, принимают номинальные и порядковые массивы. Это включает описательные функции, такие как:
Можно также использовать номинальные и порядковые массивы в качестве входных параметров к аналитическим функциям и методам на основе моделей, таких как:
Когда вы используете номинальный или порядковый массив в качестве предиктора в этих функциях, подходящая функция автоматически распознает категориальный предиктор и создает соответствующие фиктивные переменные индикатора для анализа. В качестве альтернативы можно создать собственное фиктивное использование переменных индикатора dummyvar
.
Уровни категориальных переменных часто задаются как текст, который может быть дорогостоящим, чтобы сохранить и управлять в массиве ячеек из символьных векторов или char
массив. Номинальные и порядковые массивы отдельно хранят членство в категории и подписи категорий, значительно уменьшая объем памяти, требуемый сохранить переменную.
Например, загрузите некоторые выборочные данные:
load('fisheriris')
species
массив ячеек из символьных векторов, требующий 19 300 байтов памяти.
Преобразуйте species
к номинальному массиву:
species = nominal(species);
Существует 95%-е сокращение памяти, требуемой сохранить переменную.