Определите корень или лемматизируйте слова
Использование normalizeWords
уменьшать слова до исходной формы. К lemmatize английским словам (уменьшают их до их словарных форм), установите 'Style'
опция к 'lemma'
.
Функция поддерживает английский, японский язык, немецкий язык и корейский текст.
уменьшает слова в updatedDocuments
= normalizeWords(documents
)documents
к исходной форме. Для английского и немецкого текста функция, по умолчанию, останавливает слова с помощью Носильщика stemmer для английского и немецкого текста соответственно. Для японского и корейского текста, функции, по умолчанию, lemmatizes слова с помощью токенизатора MeCab.
уменьшает каждое слово в массиве строк updatedWords
= normalizeWords(words
)words
к исходной форме.
уменьшает слова и также задает язык слова.updatedWords
= normalizeWords(words
,'Language',language
)
removeStopWords
| tokenDetails
| removeWords
| stopWords
| removeShortWords
| removeLongWords
| tokenizedDocument
| bagOfWords
| bagOfNgrams
| addPartOfSpeechDetails
| addLemmaDetails