Удалите слова остановки из документов
Слова как "a", "и", "к", и (известный как слова остановки) могут добавить шум в данные. Используйте эту функцию, чтобы удалить слова остановки перед анализом.
Функция поддерживает английский, японский язык, немецкий язык и корейский текст. Изучить, как использовать removeStopWords
для других языков смотрите Факторы Языка.
удаляет слова остановки из newDocuments
= removeStopWords(documents
)tokenizedDocument
массив documents
. Функция, по умолчанию, использует список слов остановки, данный stopWords
функция согласно деталям языка documents
и является нечувствительным к регистру.
Чтобы удалить пользовательский список слов, используйте removeWords
функция.
удаляет слова остановки со случаем, совпадающим со списком слов остановки, данным newDocuments
= removeStopWords(documents
,'IgnoreCase',false)stopWords
функция.
Совет
Использование removeStopWords
перед использованием normalizeWords
функция как removeStopWords
информация об использовании, которая удалена этой функцией.
tokenizedDocument
| removeShortWords
| removeLongWords
| removeWords
| normalizeWords
| stopWords
| bagOfWords