Примечание
The nominal
и ordinal
типы данных массива не рекомендованы. Чтобы представлять упорядоченные и неупорядоченные дискретные нечисловые данные, используйте вместо этого тип данных Категориальные Массивы.
При работе с категориальными переменными и их уровнями вы столкнетесь с некоторыми типичными проблемами. В этой таблице представлены функции, которые можно использовать с номинальными или порядковыми массивами для управления уровнями категорий. Для дополнительных функций введите methods nominal
или methods ordinal
в командной строке или см. nominal
и ordinal
страницы с описанием.
Задача | Функция |
---|---|
Добавление новых уровней категорий | addlevels |
Падение уровней категорий | droplevels |
Объедините уровни категорий | mergelevels |
Переупорядочить уровни категорий | reorderlevels |
Подсчитайте количество наблюдений в каждой категории | levelcounts |
Изменение метки или имени уровней категорий | setlabels |
Создайте коэффициент взаимодействия | times |
Найти наблюдения, которые не находятся в определенной категории | isundefined |
Вы можете использовать номинальные и порядковые массивы в различных статистических анализах. Например, можно хотеть вычислить описательную статистику для данных, сгруппированных по уровням категорий, провести статистические тесты различий между средствами категории или выполнить регрессионный анализ с помощью категориальных предикторов.
Функции Statistics and Machine Learning Toolbox™, которые принимают сгруппированную переменную как входной параметр, принимают номинальные и порядковые массивы. Это включает описательные функции, такие как:
Можно также использовать номинальный и порядковый массивы в качестве входных параметров в функции анализа и методы, основанные на моделях, таких как:
Когда вы используете номинальный или порядковый массив в качестве предиктора в этих функциях, функция аппроксимации автоматически распознает категориальный предиктор и создает соответствующие переменные фиктивного индикатора для анализа. Кроме того, можно создать свои собственные переменные фиктивного индикатора с помощью dummyvar
.
Уровни категориальных переменных часто определяются как текст, которым может быть дорого хранить и манипулировать в массиве ячеек из векторов символов или char
массив. Номинальные и порядковые массивы отдельно хранят данные о принадлежности к категории и метках категорий, значительно уменьшая объем памяти, требуемый для хранения переменной.
Для примера загрузите некоторые выборочные данные:
load('fisheriris')
species
- массив ячеек из векторов символов, требующих 19 300 байт памяти.
Преобразование species
в номинальный массив:
species = nominal(species);
Для хранения переменной требуется 95% -ное сокращение памяти.