Стебельные или лемматизированные слова
Использовать normalizeWords для сведения слов к корневой форме. Чтобы лемматизировать английские слова (уменьшить их до словарных форм), установите 'Style' опция для 'lemma'.
Функция поддерживает английский, японский, немецкий и корейский тексты.
уменьшает количество слов в updatedDocuments = normalizeWords(documents)documents в корневую форму. Для текста на английском и немецком языках функция по умолчанию состоит из слов, использующих штеммер Портера для текста на английском и немецком языках соответственно. Для японского и корейского текста функция по умолчанию лемматизирует слова с помощью токенизатора MeCab.
сокращает каждое слово в строковом массиве updatedWords = normalizeWords(words)words в корневую форму.
сокращает количество слов, а также задает язык слов.updatedWords = normalizeWords(words,'Language',language)
addLemmaDetails | addPartOfSpeechDetails | bagOfNgrams | bagOfWords | removeLongWords | removeShortWords | removeStopWords | removeWords | stopWords | tokenDetails | tokenizedDocument