Модель мешка n-граммов
Модель сумки n-граммов регистрирует количество раз, когда каждый n-грамм появляется в каждом документе набора. n-грамм - это набор n последовательных слов.
bagOfNgrams
не разделяет текст на слова. Чтобы создать массив токенизированных документов, смотрите tokenizedDocument
.
создает пустую модель bag-of-n-gams.bag
= bagOfNgrams
создает модель bag-of-n-gams и подсчитывает биграммы (пары слов) в bag
= bagOfNgrams(documents
)documents
.
отсчитывает n-граммы заданных длин, используя любой из предыдущих синтаксисов.bag
= bagOfNgrams(___,'NgramLengths',lengths
)
создает модель сумки n-граммов, используя n-граммы в bag
= bagOfNgrams(uniqueNgrams
,counts
)uniqueNgrams
и соответствующие счетчики частот в counts
. Если uniqueNgrams
содержит <missing>
значений, затем соответствующих значений в counts
игнорируются.
encode | Закодируйте документы как матрицу счетчиков слов или n-граммов |
tfidf | Term Frequency-Inverse Document Frequency (tf-idf) матрица |
topkngrams | Наиболее частые n-граммы |
addDocument | Добавьте документы в модель мешка слов или мешка n-граммов |
removeDocument | Удалите документы из модели мешка слов или мешка n-граммов |
removeEmptyDocuments | Удалите пустые документы из токенизированного массива документов, модели мешка слов или модели мешка n-граммов |
removeNgrams | Удалите n-граммы из модели мешка n-граммов |
removeInfrequentNgrams | Удалите нечасто замеченные n-граммы из модели мешка n-граммов |
join | Объедините несколько моделей мешка слов или мешка n-граммов |
wordcloud | Создайте график облака слов из текста, модели мешка слов, модели мешка n-граммов или модели LDA |
addDocument
| bagOfWords
| encode
| removeDocument
| removeEmptyDocuments
| removeInfrequentNgrams
| removeNgrams
| tfidf
| tokenizedDocument
| topkngrams