Удалите стоповые слова из документов
Такие слова, как «a», «and», «to» и «the» (известные как стоповые слова), могут добавить шум к данным. Используйте эту функцию, чтобы удалить стоповые слова перед анализом.
Функция поддерживает английский, японский, немецкий и корейский текст. Чтобы узнать, как использовать removeStopWords
для других языков см. «Языковые факторы».
удаляет стоповые слова из newDocuments
= removeStopWords(documents
)tokenizedDocument
массивы направленности documents
. Функция по умолчанию использует список стоповых слов, заданный stopWords
функция согласно языковым деталям documents
и является нечувствительным к регистру.
Чтобы удалить пользовательский список слов, используйте removeWords
функция.
удаляет стоповые слова со случаем, соответствующим списку стоповых слов, заданному newDocuments
= removeStopWords(documents
,'IgnoreCase',false)stopWords
функция.
Совет
Использовать removeStopWords
перед использованием normalizeWords
функционировать как removeStopWords
использует информацию, которая удаляется этой функцией.
bagOfWords
| normalizeWords
| removeLongWords
| removeShortWords
| removeWords
| stopWords
| tokenizedDocument