Модель мешка слов
Модель мешка слов (также известная как счетчик частоты терминов) регистрирует количество раз, когда слова появляются в каждом документе набора.
bagOfWords не разделяет текст на слова. Чтобы создать массив токенизированных документов, смотрите tokenizedDocument.
создает пустую модель мешка слов.bag = bagOfWords
считает слова, появляющиеся в bag = bagOfWords(documents)documents и возвращает модель мешка слов.
создает модель мешка слов, используя слова в bag = bagOfWords(uniqueWords,counts)uniqueWords и соответствующие счетчики частот в counts.
encode | Закодируйте документы как матрицу счетчиков слов или n-граммов |
tfidf | Term Frequency-Inverse Document Frequency (tf-idf) матрица |
topkwords | Самые важные слова в модели мешка слов или теме LDA |
addDocument | Добавьте документы в модель мешка слов или мешка n-граммов |
removeDocument | Удалите документы из модели мешка слов или мешка n-граммов |
removeEmptyDocuments | Удалите пустые документы из токенизированного массива документов, модели мешка слов или модели мешка n-граммов |
removeWords | Удалите выбранные слова из документов или модели мешка слов |
removeInfrequentWords | Удалите слова с низким количеством из модели мешка слов |
join | Объедините несколько моделей мешка слов или мешка n-граммов |
wordcloud | Создайте график облака слов из текста, модели мешка слов, модели мешка n-граммов или модели LDA |
Если вы намерены использовать задержанный тестовый набор для своей работы, разделите текстовые данные перед использованием bagOfWords. В противном случае модель мешка слов может смещать ваш анализ.
addDocument | bagOfNgrams | encode | removeDocument | removeEmptyDocuments | removeInfrequentWords | removeWords | tfidf | tokenizedDocument | topkwords