characterCategories

Категории символа Unicode

    Описание

    пример

    ucats = characterCategories(str32) возвращает главные категории символа Unicode для символов в UTF32 объект str.

    пример

    ucats = characterCategories(str32,'Granularity',granularity) также задает гранулярность возвращенных категорий. Например, characterCategories(str32,'Granularity','detailed') возвращает подробные категории символа Unicode.

    Примеры

    свернуть все

    Преобразуйте строку "Hello! " к его Unicode строковое представление UTF-32 с помощью textanalytics.unicode.UTF32 функция.

    str = "Hello! ";
    str32 = textanalytics.unicode.UTF32(str)
    str32 = 
      UTF32 with properties:
    
        Data: [72 101 108 108 111 33 32 128512]
    
    

    Получите категории символа Unicode str32 использование characterCategories функция.

    ucats = characterCategories(str32)
    ucats = 1x1 cell array
        {[L    L    L    L    L    P    Z    S]}
    
    

    Категории символа Unicode "L", "P", "Z", и "S" соответствуют "букве", "пунктуации", "диафрагме" и "символу", соответственно.

    Преобразуйте строку "Hello! " к его Unicode строковое представление UTF-32 с помощью textanalytics.unicode.UTF32 функция.

    str = "Hello! ";
    str32 = textanalytics.unicode.UTF32(str)
    str32 = 
      UTF32 with properties:
    
        Data: [72 101 108 108 111 33 32 128512]
    
    

    Получите категории символа Unicode str32 использование characterCategories функция. Чтобы возвратить подробные категории символа Unicode, установите 'Granularity' опция к 'detailed'.

    ucats = characterCategories(str32,'Granularity','detailed')
    ucats = 1x1 cell array
        {[Lu    Ll    Ll    Ll    Ll    Po    Zs    So]}
    
    

    Категории символа Unicode "Лютеций", "Ll", "По", "Zs", и "Тем самым" соответствуют "прописной букве", "строчной букве", "другая пунктуация", "диафрагма пробела", и "другой символ", соответственно.

    Входные параметры

    свернуть все

    Строковое представление UTF-32 в виде UTF32 массив.

    Гранулярность возвращенных категорий символа Unicode в виде одного из следующего:

    • 'major' – Возвратите главную категорию символа Unicode. Это включает первый символ категории символа Unicode только.

    • 'detailed' – Возвратите подробные коды символов Unicode. Это включает все символы категории символа Unicode.

    Выходные аргументы

    свернуть все

    Категории символа Unicode, возвращенные как массив ячеек категориальных векторов.

    Эта таблица показывает главные и подробные категории символа Unicode. Чтобы задать который гранулярность категорий символа Unicode возвратиться, используйте Granularity опция.

    Главная символьная категорияГлавное символьное описание категорииПодробная символьная категорияПодробное символьное описание категории
    LБукваЛютецийПрописная буква
    LlСтрочная буква
    &ltБуква Titlecase
    LmБуква модификатора
    ЛоДругая буква
    MМаркM, n Метка без интервалов
    МГцРазрядка метки
    ЯВключение метки
    NНомерБез обозначения датыДесятичное число
    NlОбозначьте буквами номер
    НетДругой номер
    PПунктуацияPCПунктуация коннектора
    PdПодчеркните штриховой линией пунктуацию
    PsОткрытая пунктуация
    PeЗакройте пунктуацию
    \PiНачальная пунктуация
    PfИтоговая пунктуация
    ПоДругая пунктуация
    SСимволСмМатематический символ
    Кв/смОбозначение денежной единицы
    SkСимвол модификатора
    ТакДругой символ
    ZДиафрагмаZsДиафрагма пробела
    Zl Диафрагма линии
    ZpРазделитель абзацев
    CДругойCc Управление
    CfФормат
    Cs Суррогат
    КоЛичное пользование
    CN Неприсвоенный

    Ссылки

    [1] База данных Символа Unicode Приложения № 44 Стандарта Unicode® https://www.unicode.org/reports/tr44

    Введенный в R2021a
    Для просмотра документации необходимо авторизоваться на сайте