exponenta event banner

characterCategories

Категории символов Юникода

    Описание

    пример

    ucats = characterCategories(str32) возвращает основные категории символов Юникода для символов в UTF32 объект str.

    пример

    ucats = characterCategories(str32,'Granularity',granularity) также определяет гранулярность возвращаемых категорий. Например, characterCategories(str32,'Granularity','detailed') возвращает подробные категории символов Юникода.

    Примеры

    свернуть все

    Преобразовать строку "Hello! " в свое строковое представление Unicode UTF-32 с помощью textanalytics.unicode.UTF32 функция.

    str = "Hello! ";
    str32 = textanalytics.unicode.UTF32(str)
    str32 = 
      UTF32 with properties:
    
        Data: [72 101 108 108 111 33 32 128512]
    
    

    Получение категорий символов Юникода str32 с использованием characterCategories функция.

    ucats = characterCategories(str32)
    ucats = 1x1 cell array
        {[L    L    L    L    L    P    Z    S]}
    
    

    Категории символов Юникода «L», «P», «Z» и «S» соответствуют «букве», «пунктуации», «разделителю» и «символу» соответственно.

    Преобразовать строку "Hello! " в свое строковое представление Unicode UTF-32 с помощью textanalytics.unicode.UTF32 функция.

    str = "Hello! ";
    str32 = textanalytics.unicode.UTF32(str)
    str32 = 
      UTF32 with properties:
    
        Data: [72 101 108 108 111 33 32 128512]
    
    

    Получение категорий символов Юникода str32 с использованием characterCategories функция. Чтобы вернуть подробные категории символов Юникода, установите 'Granularity' опция для 'detailed'.

    ucats = characterCategories(str32,'Granularity','detailed')
    ucats = 1x1 cell array
        {[Lu    Ll    Ll    Ll    Ll    Po    Zs    So]}
    
    

    Категории символов Юникода «Lu», «Ll», «Po», «Zs» и «So» соответствуют «прописной букве», «строчной букве», «другой пунктуации», «разделителю пространства» и «другому символу» соответственно.

    Входные аргументы

    свернуть все

    UTF-32 строковое представление, указанное как UTF32 массив.

    Гранулярность возвращенных категорий символов Юникода, указанных как одна из следующих:

    • 'major' - Возврат основной категории символов Юникода. Сюда входит только первый символ категории символов Юникод.

    • 'detailed' - Возврат подробных кодов символов Юникода. Сюда входят все символы категории символов Юникод.

    Выходные аргументы

    свернуть все

    Категории символов Юникода, возвращаемые в виде массива ячеек категориальных векторов.

    В этой таблице представлены основные и подробные категории символов Юникода. Для указания гранулярности возвращаемых категорий символов Юникода используйте Granularity вариант.

    Категория основных символовОписание категории основных символовПодробная категория символовПодробное описание категории символов
    LПисьмоЛютецийПрописная буква
    LlСтрочная буква
    ЛейтенантБуква Титлеказа
    LmБуква модификатора
    ЛоДругое письмо
    MМаркMnНесекционный знак
    МГцОтметка интервала
    ЯЗаключительная метка
    NЧислоБез обозначения датыДесятичное число
    NlБуквенный номер
    НетДругое число
    PПунктуацияPCПунктуация соединителя
    ФунтПунктуация тире
    PsОткрытая пунктуация
    PeЗакрыть пунктуацию
    ПиНачальная пунктуация
    PfОкончательная пунктуация
    ПоПрочая пунктуация
    SСимволСмМатематический символ
    ScСимвол валюты
    SkСимвол модификатора
    ТакДругой символ
    ZСепараторZsРазделитель пространства
    ZlРазделитель линий
    ZpРазделитель абзацев
    CДругоеКопияКонтроль
    CfФормат
    CsСуррогат
    КоЧастное использование
    CnНеназначенный

    Ссылки

    [1] Стандартное приложение Unicode ® # 44 https://www.unicode.org/reports/tr44 базы данных символов Unicode

    Представлен в R2021a