Модель мешка слов
Модель мешка слов (также известная как счетчик частоты терминов) регистрирует количество раз, когда слова появляются в каждом документе набора.
bagOfWords
не разделяет текст на слова. Чтобы создать массив токенизированных документов, смотрите tokenizedDocument
.
создает пустую модель мешка слов.bag
= bagOfWords
считает слова, появляющиеся в bag
= bagOfWords(documents
)documents
и возвращает модель мешка слов.
создает модель мешка слов, используя слова в bag
= bagOfWords(uniqueWords
,counts
)uniqueWords
и соответствующие счетчики частот в counts
.
encode | Закодируйте документы как матрицу счетчиков слов или n-граммов |
tfidf | Term Frequency-Inverse Document Frequency (tf-idf) матрица |
topkwords | Самые важные слова в модели мешка слов или теме LDA |
addDocument | Добавьте документы в модель мешка слов или мешка n-граммов |
removeDocument | Удалите документы из модели мешка слов или мешка n-граммов |
removeEmptyDocuments | Удалите пустые документы из токенизированного массива документов, модели мешка слов или модели мешка n-граммов |
removeWords | Удалите выбранные слова из документов или модели мешка слов |
removeInfrequentWords | Удалите слова с низким количеством из модели мешка слов |
join | Объедините несколько моделей мешка слов или мешка n-граммов |
wordcloud | Создайте график облака слов из текста, модели мешка слов, модели мешка n-граммов или модели LDA |
Если вы намерены использовать задержанный тестовый набор для своей работы, разделите текстовые данные перед использованием bagOfWords
. В противном случае модель мешка слов может смещать ваш анализ.
addDocument
| bagOfNgrams
| encode
| removeDocument
| removeEmptyDocuments
| removeInfrequentWords
| removeWords
| tfidf
| tokenizedDocument
| topkwords