textanalytics.unicode.nfd

Unicode анализировал нормированную форму (NFD)

    Описание

    пример

    newStr = textanalytics.unicode.nfd(str) нормирует строку str к Unicode каноническая форма разложения (NFD).

    Примеры

    свернуть все

    Строки, которые выглядят идентичными, могут иметь различные базовые представления. Каноническая форма разложения Unicode (NFD) гарантирует, что эквивалентные строки имеют уникальное бинарное представление. Это полезно, когда строки содержат символы с диакритикой, которые могут иметь несколько способов представлять их.

    Считайте строку "jalapeño" который содержит 8 букв.

    str = "jalapeño";
    strlength(str)
    ans = 8
    

    Нормируйте строку с помощью textanalytics.unicode.nfd функция. В зависимости от вашей системы выводимая строка, может казаться, идентична входной строке.

    newStr = textanalytics.unicode.nfd(str)
    newStr = 
    "jalapeño"
    

    Просмотрите количество кодовых точек в новой строке.

    strlength(newStr)
    ans = 9
    

    Заметьте, что нормированное представление включает одну дополнительную кодовую точку. В этом случае функция разделяет букву с диакритическим знаком "ñ" в две отдельных кодовых точки. Извлеките 7-е и 8-е кодовые точки в нормированной строке. В зависимости от вашей системы выход, может казаться, отдельный символ.

    extractBetween(newStr,7,8)
    ans = 
    "ñ"
    

    Проверяйте что строки str и newStr равное использование == оператор. Оператор возвращает false, потому что строки имеют различные базовые представления.

    tf = str == newStr
    tf = logical
       0
    
    

    Входные параметры

    свернуть все

    Введите текст в виде массива строк, вектора символов или массива ячеек из символьных векторов.

    Пример: ["An example of a short sentence."; "A second short sentence."]

    Типы данных: string | char | cell

    Выходные аргументы

    свернуть все

    Синтезируемый текст, возвращенный как массив строк, вектор символов или массив ячеек из символьных векторов. str и newStr имейте совпадающий тип данных.

    Ссылки

    [1] Формы нормализации Unicode Приложения № 15 Стандарта Unicode https://unicode.org/reports/tr15/

    Введенный в R2021a