textanalytics.unicode.nfd

Декомпозиционная нормализованная форма Юникода (NFD)

свернуть все на странице

Синтаксис

newStr = textanalytics.unicode.nfd (str)

Описание

пример

newStr = textanalytics.unicode.nfd(str) нормализует строку str в форму канонической декомпозиции Юникода (NFD).

Примеры

свернуть все

Нормализовать к форме канонической декомпозиции Юникода

Открыть сценарий в реальном времени

Строки, которые выглядят идентично, могут иметь различные нижележащие представления. Форма канонической декомпозиции Юникода (NFD) гарантирует, что эквивалентные строки имеют уникальное двоичное представление. Это полезно, когда строки содержат акцентированные символы, которые могут быть представлены несколькими способами.

Рассмотрим строку "jalapeño" который содержит 8 букв.

str = "jalapeño";
strlength(str)

ans = 8

Нормализовать строку с помощью textanalytics.unicode.nfd функция. В зависимости от системы выходная строка может казаться идентичной входной строке.

newStr = textanalytics.unicode.nfd(str)

newStr = 
"jalapeño"

Просмотр количества кодовых точек в новой строке.

strlength(newStr)

ans = 9

Обратите внимание, что нормализованное представление включает в себя одну дополнительную кодовую точку. В этом случае функция разделяет акцентированную букву "ñ" на две отдельные кодовые точки. Извлеките 7-ю и 8-ю кодовые точки в нормализованной строке. В зависимости от системы выходные данные могут представлять собой один символ.

extractBetween(newStr,7,8)

ans = 
"ñ"

Проверьте, что строки str и newStr равны с помощью == оператор. Оператор возвращает значение false, поскольку строки имеют различные нижележащие представления.

tf = str == newStr

tf = logical
   0

Входные аргументы

свернуть все

`str` - Входной текст
строковый массив | символьный вектор | клеточный массив символьных векторов

Входной текст, заданный как строковый массив, символьный вектор или массив ячеек символьных векторов.

Пример: ["An example of a short sentence."; "A second short sentence."]

Типы данных: string | char | cell

Выходные аргументы

свернуть все

`newStr` - Выходной текст
строковый массив | символьный вектор | клеточный массив символьных векторов

Выходной текст, возвращаемый в виде строкового массива, символьного вектора или массива ячеек символьных векторов. str и newStr имеют один и тот же тип данных.

Ссылки

[1] Стандартные формы нормализации Юникода, приложение # 15 https://unicode.org/reports/tr15/

См. также

characterCategories | hex | tokenizedDocument | UTF32

Темы

Представлен в R2021a

Документация

textanalytics.unicode.nfd

Синтаксис

Описание

Примеры

Нормализовать к форме канонической декомпозиции Юникода

Входные аргументы

`str` - Входной текст
строковый массив | символьный вектор | клеточный массив символьных векторов

Выходные аргументы

`newStr` - Выходной текст
строковый массив | символьный вектор | клеточный массив символьных векторов

Ссылки

См. также

Темы

Документация по инструментам для анализа текста

Поддержка

Документация

textanalytics.unicode.nfd

Синтаксис

Описание

Примеры

Нормализовать к форме канонической декомпозиции Юникода

Входные аргументы

str - Входной текст строковый массив | символьный вектор | клеточный массив символьных векторов

Выходные аргументы

newStr - Выходной текст строковый массив | символьный вектор | клеточный массив символьных векторов

Ссылки

См. также

Темы

Документация по инструментам для анализа текста

Поддержка

`str` - Входной текст
строковый массив | символьный вектор | клеточный массив символьных векторов

`newStr` - Выходной текст
строковый массив | символьный вектор | клеточный массив символьных векторов