Мешок n модели граммов
Мешок n модели граммов записывает число раз, что каждая n-грамма появляется в каждом документе набора. N-грамма является набором n последовательные слова.
bagOfNgrams
не разделяет текст в слова. Чтобы создать массив маркируемых документов, смотрите tokenizedDocument
.
создает пустой мешок n модели граммов.bag
= bagOfNgrams
создает мешок n модели граммов и считает биграммы (пары слов) в bag
= bagOfNgrams(documents
)documents
.
N-граммы количеств заданных длин с помощью любого из предыдущих синтаксисов.bag
= bagOfNgrams(___,'NgramLengths',lengths
)
создает мешок n модели граммов использование N-грамм в bag
= bagOfNgrams(uniqueNgrams
,counts
)uniqueNgrams
и соответствующий подсчет частот в counts
. Если uniqueNgrams
содержит <missing>
значения, затем соответствующие значения в counts
проигнорированы.
encode | Закодируйте документы как матрицу количеств n-граммы или слова |
tfidf | Назовите Обратную Частотой Частоту Документа (tf-idf) матрицей |
topkngrams | Большинство частых N-грамм |
addDocument | Добавьте документы сумке слов или мешку n модели граммов |
removeDocument | Удалите документы из сумки слов или мешка n модели граммов |
removeEmptyDocuments | Удалите пустые документы из маркируемого массива документа, модель сумки слов или мешок n модели граммов |
removeNgrams | Удалите N-граммы из мешка n модели граммов |
removeInfrequentNgrams | Удалите нечасто замечаемые N-граммы из мешка n модели граммов |
join | Объедините несколько сумка слов или мешок n моделей граммов |
wordcloud | Создайте график облака слова из текста, модели сумки слов, мешка n модели граммов или модели LDA |
bagOfWords
| addDocument
| removeDocument
| removeInfrequentNgrams
| removeNgrams
| removeEmptyDocuments
| topkngrams
| encode
| tfidf
| tokenizedDocument