Определите корень или лемматизируйте слова
Использовать normalizeWords
чтобы уменьшить слова до корневой формы. Чтобы лемматизировать английские слова (привести их к своим словарным формам), установите 'Style'
опция для 'lemma'
.
Функция поддерживает английский, японский, немецкий и корейский текст.
сокращает слова в updatedDocuments
= normalizeWords(documents
)documents
в корневую форму. Для текста на английском и немецком языках функция, по умолчанию, является основой для слов, использующих Porter stemmer для текста на английском и немецком языках соответственно. Для японского и корейского текста функция по умолчанию лемматизирует слова с помощью токенизатора MeCab.
уменьшает каждое слово в строковые массивы updatedWords
= normalizeWords(words
)words
в корневую форму.
сокращает слова, а также задает язык слов.updatedWords
= normalizeWords(words
,'Language',language
)
addLemmaDetails
| addPartOfSpeechDetails
| bagOfNgrams
| bagOfWords
| removeLongWords
| removeShortWords
| removeStopWords
| removeWords
| stopWords
| tokenDetails
| tokenizedDocument