Модель мешка n-граммов
Модель мешка n-граммов записывает количество раз, которое каждый n-грамм появляется в каждом документе коллекции. N-грамм - это совокупность n последовательных слов.
bagOfNgrams не разбивает текст на слова. Сведения о создании массива маркированных документов см. в разделе tokenizedDocument.
создает пустую модель мешка n-grams.bag = bagOfNgrams
создает модель bag-of-n-grams и подсчитывает биграммы (пары слов) в bag = bagOfNgrams(documents)documents.
подсчитывает n-граммов указанных длин, используя любой из предыдущих синтаксисов.bag = bagOfNgrams(___,'NgramLengths',lengths)
создает модель мешка n-грамм, используя n-грамм в bag = bagOfNgrams(uniqueNgrams,counts)uniqueNgrams и соответствующие счетчики частоты в counts. Если uniqueNgrams содержит <missing> значения, затем соответствующие значения в counts игнорируются.
encode | Кодировать документы как матрицу числа слов или n-граммов |
tfidf | Матрица Term Frequency-Inverse Document Frequency (tf-idf) |
topkngrams | Наиболее часто n-грамм |
addDocument | Добавление документов в модель «мешок слов» или «мешок n-грамм» |
removeDocument | Удалить документы из модели мешка слов или мешка n граммов |
removeEmptyDocuments | Удаление пустых документов из маркированного массива документов, модели мешка слов или модели мешка n грамм |
removeNgrams | Удалить n-грамм из модели мешков n-грамм |
removeInfrequentNgrams | Удаление редко встречающихся n-грамм из модели мешков n-грамм |
join | Объединение нескольких моделей мешков слов или мешков n граммов |
wordcloud | Создание таблицы облака слов из текста, модели мешка слов, модели мешка n граммов или модели LDA |
addDocument | bagOfWords | encode | removeDocument | removeEmptyDocuments | removeInfrequentNgrams | removeNgrams | tfidf | tokenizedDocument | topkngrams