Модель сумки слов
Модель сумки слов (также известная как счетчик терминов-частот) записывает количество раз, когда слова появляются в каждом документе коллекции.
bagOfWords не разбивает текст на слова. Сведения о создании массива маркированных документов см. в разделе tokenizedDocument.
создает пустую модель пакета слов.bag = bagOfWords
подсчитывает слова, появляющиеся в bag = bagOfWords(documents)documents и возвращает модель пакета слов.
создает модель сумки слов, используя слова в bag = bagOfWords(uniqueWords,counts)uniqueWords и соответствующие счетчики частоты в counts.
encode | Кодировать документы как матрицу числа слов или n-граммов |
tfidf | Матрица Term Frequency-Inverse Document Frequency (tf-idf) |
topkwords | Наиболее важные слова в сумке слов модели или темы LDA |
addDocument | Добавление документов в модель «мешок слов» или «мешок n-грамм» |
removeDocument | Удалить документы из модели мешка слов или мешка n граммов |
removeEmptyDocuments | Удаление пустых документов из маркированного массива документов, модели мешка слов или модели мешка n грамм |
removeWords | Удалить выбранные слова из документов или модели мешка слов |
removeInfrequentWords | Удалить слова с низкими счетчиками из модели сумки слов |
join | Объединение нескольких моделей мешков слов или мешков n граммов |
wordcloud | Создание таблицы облака слов из текста, модели мешка слов, модели мешка n граммов или модели LDA |
Если вы намереваетесь использовать задержанный набор тестов для своей работы, то разделите текстовые данные перед использованием bagOfWords. В противном случае модель мешка слов может привести к смещению анализа.
addDocument | bagOfNgrams | encode | removeDocument | removeEmptyDocuments | removeInfrequentWords | removeWords | tfidf | tokenizedDocument | topkwords