exponenta event banner

textanalytics.unicode.nfd

Декомпозиционная нормализованная форма Юникода (NFD)

    Описание

    пример

    newStr = textanalytics.unicode.nfd(str) нормализует строку str в форму канонической декомпозиции Юникода (NFD).

    Примеры

    свернуть все

    Строки, которые выглядят идентично, могут иметь различные нижележащие представления. Форма канонической декомпозиции Юникода (NFD) гарантирует, что эквивалентные строки имеют уникальное двоичное представление. Это полезно, когда строки содержат акцентированные символы, которые могут быть представлены несколькими способами.

    Рассмотрим строку "jalapeño" который содержит 8 букв.

    str = "jalapeño";
    strlength(str)
    ans = 8
    

    Нормализовать строку с помощью textanalytics.unicode.nfd функция. В зависимости от системы выходная строка может казаться идентичной входной строке.

    newStr = textanalytics.unicode.nfd(str)
    newStr = 
    "jalapeño"
    

    Просмотр количества кодовых точек в новой строке.

    strlength(newStr)
    ans = 9
    

    Обратите внимание, что нормализованное представление включает в себя одну дополнительную кодовую точку. В этом случае функция разделяет акцентированную букву "ñ" на две отдельные кодовые точки. Извлеките 7-ю и 8-ю кодовые точки в нормализованной строке. В зависимости от системы выходные данные могут представлять собой один символ.

    extractBetween(newStr,7,8)
    ans = 
    "ñ"
    

    Проверьте, что строки str и newStr равны с помощью == оператор. Оператор возвращает значение false, поскольку строки имеют различные нижележащие представления.

    tf = str == newStr
    tf = logical
       0
    
    

    Входные аргументы

    свернуть все

    Входной текст, заданный как строковый массив, символьный вектор или массив ячеек символьных векторов.

    Пример: ["An example of a short sentence."; "A second short sentence."]

    Типы данных: string | char | cell

    Выходные аргументы

    свернуть все

    Выходной текст, возвращаемый в виде строкового массива, символьного вектора или массива ячеек символьных векторов. str и newStr имеют один и тот же тип данных.

    Ссылки

    [1] Стандартные формы нормализации Юникода, приложение # 15 https://unicode.org/reports/tr15/

    Представлен в R2021a