Закодируйте документы как матрицу счетчиков слов или n-граммов
Использовать encode
кодировать массив токенизированных документов как матрицу отсчётов слов или n-граммов согласно модели мешка слов или мешка n-граммов. Чтобы кодировать документы как векторы или индексы слов, используйте wordEncoding
объект.
задает дополнительные опции, используя один или несколько аргументы пары "имя-значение".counts
= encode(___,Name,Value
)
bagOfNgrams
| bagOfWords
| tfidf
| tokenizedDocument