Преобразуйте массив маркируемых документов последовательностям векторов слова с помощью предварительно обученного встраивания слова.
Загрузите предварительно обученное встраивание слова с помощью функции fastTextWordEmbedding. Эта функция требует Модели Text Analytics Toolbox™ для fastText английских 16 миллиардов Лексем пакет поддержки Word Embedding. Если этот пакет поддержки не установлен, то функция обеспечивает ссылку на загрузку.
Загрузите данные о прогнозах погоды и создайте массив tokenizedDocument.
Преобразуйте документы последовательностям векторов слова с помощью doc2sequence. Функция doc2sequence, по умолчанию, лево-заполняет последовательности, чтобы иметь ту же длину. При преобразовании большого количества документов с помощью высоко-размерного встраивания слова дополнение может потребовать больших объемов памяти. Чтобы препятствовать тому, чтобы функция дополнила данные, установите опцию 'PaddingDirection' на 'none'. Также можно управлять объемом дополнения использования опции 'Length'.
Просмотрите размеры первых 10 последовательностей. Каждая последовательность является D-by-S матрицей, где D является размерностью встраивания, и S является количеством векторов слова в последовательности.
ans = 10×1 cell array
{300×8 single}
{300×39 single}
{300×14 single}
{300×14 single}
{300×0 single}
{300×15 single}
{300×20 single}
{300×6 single}
{300×21 single}
{300×10 single}