Удалить слова остановки из документов
Такие слова, как «a», «and», «to» и «the» (известные как стоп-слова) могут добавлять шум к данным. Эта функция используется для удаления стоп-слов перед анализом.
Функция поддерживает английский, японский, немецкий и корейский тексты. Как использовать removeStopWords для других языков см. Языковые рекомендации.
удаляет стоп-слова из newDocuments = removeStopWords(documents)tokenizedDocument множество documents. Функция по умолчанию использует список стоп-слов, заданный stopWords функция в соответствии с языковыми подробностями documents и является нечувствительным к регистру.
Чтобы удалить пользовательский список слов, используйте removeWords функция.
удаляет стоп-слова со случаем, соответствующим списку стоп-слов, newDocuments = removeStopWords(documents,'IgnoreCase',false)stopWords функция.
Совет
Использовать removeStopWords перед использованием normalizeWords функция как removeStopWords использует информацию, удаленную этой функцией.
bagOfWords | normalizeWords | removeLongWords | removeShortWords | removeWords | stopWords | tokenizedDocument