Закодируйте документы как матрицу количеств n-граммы или слова
Используйте encode
, чтобы закодировать массив маркируемых документов как матрица слова или количеств n-граммы согласно сумке слов или мешку n модели граммов. Чтобы закодировать документы как векторы или словари, используйте объект wordEncoding
.
counts = encode(bag,documents)
counts = encode(bag,words)
counts = encode(___,Name,Value)
задает дополнительные опции с помощью одного или нескольких аргументов пары "имя-значение".counts
= encode(___,Name,Value
)
bagOfNgrams
| bagOfWords
| tfidf
| tokenizedDocument