Модель сумки слов
Модель сумки слов (также известный как счетчик частоты термина) записывает число раз, что слова появляются в каждом документе набора.
bagOfWords не разделяет текст в слова. Чтобы создать массив маркируемых документов, смотрите tokenizedDocument.
bag = bagOfWordsbag = bagOfWords(documents)bag = bagOfWords(uniqueWords,counts) создает пустую модель сумки слов.bag = bagOfWords
считает слова, появляющиеся в bag = bagOfWords(documents)documents, и возвращает модель сумки слов.
создает модель сумки слов использование слов в bag = bagOfWords(uniqueWords,counts)uniqueWords и соответствующего подсчета частот в counts.
encode | Закодируйте документы как матрицу количеств n-граммы или слова |
tfidf | Назовите Обратную Частотой Частоту Документа (tf-idf) матрицей |
topkwords | Большинство важных слов в модели сумки слов или теме LDA |
addDocument | Добавьте документы сумке слов или мешку n модели граммов |
removeDocument | Удалите документы из сумки слов или мешка n модели граммов |
removeEmptyDocuments | Удалите пустые документы из маркируемого массива документа, модель сумки слов или мешок n модели граммов |
removeWords | Удалите выбранные слова из модели сумки слов или документов |
removeInfrequentWords | Удалите слова с низкими количествами из модели сумки слов |
join | Объедините несколько сумка слов или мешок n моделей граммов |
wordcloud | Создайте график облака слова из текста, модели сумки слов, мешка n модели граммов или модели LDA |
Если вы намереваетесь использовать протянутый набор тестов для своей работы, то раздел ваши текстовые данные перед использованием bagOfWords. В противном случае модель сумки слов может сместить ваш анализ.
addDocument | bagOfNgrams | encode | removeDocument | removeEmptyDocuments | removeInfrequentWords | removeWords | tfidf | tokenizedDocument | topkwords