textanalytics.unicode.nfd

Разложенная нормированная форма (NFD) Юникода

Свернуть все на странице

Синтаксис

newStr = textanalytics.unicode.nfd(str)

Описание

пример

newStr = textanalytics.unicode.nfd(str) нормализует строку str в форму канонического разложения (NFD) Юникода.

Примеры

свернуть все

Нормализация к форме канонического разложения Юникода

Открыть Live Script

Строки, которые выглядят идентично, могут иметь различные базовые представления. Форма канонического разложения (NFD) Юникода гарантирует, что эквивалентные строки имеют уникальное двоичное представление. Это полезно, когда строки содержат акцентированные символы, которые могут иметь несколько способов их представления.

Рассмотрим строку "jalapeño" который содержит 8 букв.

str = "jalapeño";
strlength(str)

ans = 8

Нормализуйте строку с помощью textanalytics.unicode.nfd функция. В зависимости от системы выхода строка может показаться идентичному входу строке.

newStr = textanalytics.unicode.nfd(str)

newStr = 
"jalapeño"

Просмотрите количество кода точек в новой строке.

strlength(newStr)

ans = 9

Заметьте, что нормированное представление включает одну дополнительную кодовую точку. В этом случае функция разделяет акцентированную букву "ñ" в две отдельные точки кода. Извлеките 7-ю и 8-ю точки кода в нормированной строке. В зависимости от системы, выход может показаться одним символом.

extractBetween(newStr,7,8)

ans = 
"ñ"

Проверяйте, что строки str и newStr равны при использовании == оператор. Оператор возвращает false, потому что строки имеют различные базовые представления.

tf = str == newStr

tf = logical
   0

Входные параметры

свернуть все

`str` - Входной текст
массив строк | символьный вектор | ячеек из символьных векторов

Вход текст, заданный как строковые массивы, вектор символов или массив ячеек векторов символов.

Пример: ["An example of a short sentence."; "A second short sentence."]

Типы данных: string | char | cell

Выходные аргументы

свернуть все

`newStr` - Выход текста
массив строк | символьный вектор | ячеек из символьных векторов

Выход текст, возвращенный как строковые массивы, вектор символов или массив ячеек векторов символов. str и newStr имеют совпадающий тип данных.

Ссылки

[1] Стандартное приложение Юникод # 15 Формы нормализации Юникод https://unicode.org/reports/tr15/

См. также

characterCategories | hex | tokenizedDocument | UTF32

Темы

Введенный в R2021a

Документация

textanalytics.unicode.nfd

Синтаксис

Описание

Примеры

Нормализация к форме канонического разложения Юникода

Входные параметры

`str` - Входной текст
массив строк | символьный вектор | ячеек из символьных векторов

Выходные аргументы

`newStr` - Выход текста
массив строк | символьный вектор | ячеек из символьных векторов

Ссылки

См. также

Темы

Symbolic Math Toolbox

Поддержка

Документация

textanalytics.unicode.nfd

Синтаксис

Описание

Примеры

Нормализация к форме канонического разложения Юникода

Входные параметры

str - Входной текст массив строк | символьный вектор | ячеек из символьных векторов

Выходные аргументы

newStr - Выход текста массив строк | символьный вектор | ячеек из символьных векторов

Ссылки

См. также

Темы

Symbolic Math Toolbox

Поддержка

`str` - Входной текст
массив строк | символьный вектор | ячеек из символьных векторов

`newStr` - Выход текста
массив строк | символьный вектор | ячеек из символьных векторов