characterCategories

Категории символов Юникод

    Описание

    пример

    ucats = characterCategories(str32) возвращает основные категории символов Юникода для символов в UTF32 str объекта.

    пример

    ucats = characterCategories(str32,'Granularity',granularity) также задает гранулярность возвращаемых категорий. Для примера, characterCategories(str32,'Granularity','detailed') возвращает подробные категории символов Юникода.

    Примеры

    свернуть все

    Преобразуйте строку "Hello! " в свое представление строк UTF-32 в Юникоде с использованием textanalytics.unicode.UTF32 функция.

    str = "Hello! ";
    str32 = textanalytics.unicode.UTF32(str)
    str32 = 
      UTF32 with properties:
    
        Data: [72 101 108 108 111 33 32 128512]
    
    

    Получите категории символов Юникода str32 использование characterCategories функция.

    ucats = characterCategories(str32)
    ucats = 1x1 cell array
        {[L    L    L    L    L    P    Z    S]}
    
    

    Категории символов Юникод «L», «P», «Z» и «S» соответствуют «букве», «пунктуации», «разделителю» и «символу» соответственно.

    Преобразуйте строку "Hello! " в свое представление строк UTF-32 в Юникоде с использованием textanalytics.unicode.UTF32 функция.

    str = "Hello! ";
    str32 = textanalytics.unicode.UTF32(str)
    str32 = 
      UTF32 with properties:
    
        Data: [72 101 108 108 111 33 32 128512]
    
    

    Получите категории символов Юникода str32 использование characterCategories функция. Чтобы вернуть подробные категории символов Юникода, установите 'Granularity' опция для 'detailed'.

    ucats = characterCategories(str32,'Granularity','detailed')
    ucats = 1x1 cell array
        {[Lu    Ll    Ll    Ll    Ll    Po    Zs    So]}
    
    

    Категории символов Юникод «Lu», «Ll», «Po», «Zs» и «So» соответствуют «заглавным буквам», «строчным буквам», «другим пунктуациям», «пробелам диафрагмы» и «другим символам» соответственно.

    Входные параметры

    свернуть все

    UTF-32 строковое представление, заданное как UTF32 массив.

    Гранулярность возвращенных категорий символов Юникода, заданная как одна из следующих:

    • 'major' - Возвращает основную категорию символов Юникод. Сюда входит только первый символ категории символов Юникод.

    • 'detailed' - Возвращает подробные коды символов Юникода. Сюда входят все символы категории символов Юникод.

    Выходные аргументы

    свернуть все

    Категории символов Юникод, возвращенные как массив ячеек из категориальных векторов.

    В этой таблице показаны основные и подробные категории символов Юникода. Чтобы указать, какую гранулярность категорий символов Юникода возвращать, используйте Granularity опция.

    Основная категория символовОписание основной категории символовПодробная категория символовПодробное описание категории символов
    LБукваЛютецийПрописная буква
    LlСтрочная буква
    ЛейтенантТитлеказная буква
    LmБуква модификатора
    ЛоДругая буква
    MМаркMnНепокрытая метка
    МГцМетка интервала
    ЯОграждающий знак
    NЧислоБез обозначения датыДесятичное число
    NlНомер буквы
    НетДругое число
    PПунктуацияPCПунктуация коннектора
    ФунтПунктуация штриха
    PsОткрытая пунктуация
    PeБлизкая пунктуация
    ПиНачальная пунктуация
    PfОкончательная пунктуация
    ПоДругие пунктуации
    SСимволСмМатематический символ
    ScСимвол валюты
    SkСимвол модификатора
    ТакДругой символ
    ZДиафрагмаZsПространственная диафрагма
    ZlЛинейная диафрагма
    ZpДиафрагма абзацев
    CДругоеКопияКонтроль
    CfФормат
    CsСуррогат
    КоЧастное использование
    CnНеназначенный

    Ссылки

    [1] Стандартное приложение Unicode ® # 44 для символьной базы данных Unicode https://www.unicode.org/reports/tr44

    Введенный в R2021a
    Для просмотра документации необходимо авторизоваться на сайте