Удалите слова остановки из документов
Слова как "a", "и", "к", и (известный как слова остановки) могут добавить шум в данные. Используйте эту функцию, чтобы удалить слова остановки перед анализом.
Функция поддерживает английский, японский язык и немецкий текст. Чтобы изучить, как использовать removeStopWords
для других языков, смотрите Факторы Языка.
newDocuments = removeStopWords(documents)
удаляет слова остановки из массива newDocuments
= removeStopWords(documents
)tokenizedDocument
documents
.
Используйте removeStopWords
перед использованием функции normalizeWords
как информация использования removeStopWords
, которая удалена этой функцией.
bagOfWords
| normalizeWords
| removeLongWords
| removeShortWords
| removeWords
| stopWords
| tokenizedDocument