Модель мешка n-граммов
Модель сумки n-граммов регистрирует количество раз, когда каждый n-грамм появляется в каждом документе набора. n-грамм - это набор n последовательных слов.
bagOfNgrams не разделяет текст на слова. Чтобы создать массив токенизированных документов, смотрите tokenizedDocument.
создает пустую модель bag-of-n-gams.bag = bagOfNgrams
создает модель bag-of-n-gams и подсчитывает биграммы (пары слов) в bag = bagOfNgrams(documents)documents.
отсчитывает n-граммы заданных длин, используя любой из предыдущих синтаксисов.bag = bagOfNgrams(___,'NgramLengths',lengths)
создает модель сумки n-граммов, используя n-граммы в bag = bagOfNgrams(uniqueNgrams,counts)uniqueNgrams и соответствующие счетчики частот в counts. Если uniqueNgrams содержит <missing> значений, затем соответствующих значений в counts игнорируются.
encode | Закодируйте документы как матрицу счетчиков слов или n-граммов |
tfidf | Term Frequency-Inverse Document Frequency (tf-idf) матрица |
topkngrams | Наиболее частые n-граммы |
addDocument | Добавьте документы в модель мешка слов или мешка n-граммов |
removeDocument | Удалите документы из модели мешка слов или мешка n-граммов |
removeEmptyDocuments | Удалите пустые документы из токенизированного массива документов, модели мешка слов или модели мешка n-граммов |
removeNgrams | Удалите n-граммы из модели мешка n-граммов |
removeInfrequentNgrams | Удалите нечасто замеченные n-граммы из модели мешка n-граммов |
join | Объедините несколько моделей мешка слов или мешка n-граммов |
wordcloud | Создайте график облака слов из текста, модели мешка слов, модели мешка n-граммов или модели LDA |
addDocument | bagOfWords | encode | removeDocument | removeEmptyDocuments | removeInfrequentNgrams | removeNgrams | tfidf | tokenizedDocument | topkngrams