Строки, которые выглядят идентично, могут иметь различные нижележащие представления. Форма канонической декомпозиции Юникода (NFD) гарантирует, что эквивалентные строки имеют уникальное двоичное представление. Это полезно, когда строки содержат акцентированные символы, которые могут быть представлены несколькими способами.
Рассмотрим строку "jalapeño" который содержит 8 букв.
Нормализовать строку с помощью textanalytics.unicode.nfd функция. В зависимости от системы выходная строка может казаться идентичной входной строке.
Просмотр количества кодовых точек в новой строке.
Обратите внимание, что нормализованное представление включает в себя одну дополнительную кодовую точку. В этом случае функция разделяет акцентированную букву "ñ" на две отдельные кодовые точки. Извлеките 7-ю и 8-ю кодовые точки в нормализованной строке. В зависимости от системы выходные данные могут представлять собой один символ.
Проверьте, что строки str и newStr равны с помощью == оператор. Оператор возвращает значение false, поскольку строки имеют различные нижележащие представления.