Удалите слова остановки из документов
Слова как "a", "и", "к", и (известный как слова остановки) могут добавить шум в данные. Используйте эту функцию, чтобы удалить слова остановки перед анализом.
Функция поддерживает английский, японский язык, немецкий язык и корейский текст. Изучить, как использовать removeStopWords
для других языков смотрите Факторы Языка.
удаляет слова остановки из newDocuments
= removeStopWords(documents
)tokenizedDocument
массив documents
.
Используйте removeStopWords
перед использованием normalizeWords
функционируйте как removeStopWords
информация об использовании, которая удалена этой функцией.
bagOfWords
| normalizeWords
| removeLongWords
| removeShortWords
| removeWords
| stopWords
| tokenizedDocument