Модель сумки слов
Модель сумки слов (также известный как счетчик частоты термина) записывает число раз, что слова появляются в каждом документе набора.
bagOfWords
не разделяет текст в слова. Чтобы создать массив маркируемых документов, смотрите tokenizedDocument
.
создает пустую модель сумки слов.bag
= bagOfWords
считает слова, появляющиеся в bag
= bagOfWords(documents
)documents
и возвращает модель сумки слов.
создает модель сумки слов использование слов в bag
= bagOfWords(uniqueWords
,counts
)uniqueWords
и соответствующий подсчет частот в counts
.
encode | Закодируйте документы как матрицу количеств n-граммы или слова |
tfidf | Назовите Обратную Частотой Частоту Документа (tf-idf) матрицей |
topkwords | Большинство важных слов в модели сумки слов или теме LDA |
addDocument | Добавьте документы сумке слов или мешку n модели граммов |
removeDocument | Удалите документы из сумки слов или мешка n модели граммов |
removeEmptyDocuments | Удалите пустые документы из маркируемого массива документа, модель сумки слов или мешок n модели граммов |
removeWords | Удалите выбранные слова из модели сумки слов или документов |
removeInfrequentWords | Удалите слова с низкими количествами из модели сумки слов |
join | Объедините несколько сумка слов или мешок n моделей граммов |
wordcloud | Создайте график облака слова из текста, модели сумки слов, мешка n модели граммов или модели LDA |
Если вы намереваетесь использовать протянутый набор тестов для своей работы, то раздел ваши текстовые данные перед использованием bagOfWords
. В противном случае модель сумки слов может сместить ваш анализ.
bagOfNgrams
| addDocument
| removeDocument
| removeInfrequentWords
| removeWords
| removeEmptyDocuments
| topkwords
| encode
| tfidf
| tokenizedDocument