Преобразуйте массив маркируемых документов последовательностям векторов слова с помощью предварительно обученного встраивания слова.
Загрузите предварительно обученное встраивание слова с помощью функции fastTextWordEmbedding
. Эта функция требует Модели Text Analytics Toolbox™ для fastText английских 16 миллиардов Лексем пакет поддержки Word Embedding. Если этот пакет поддержки не установлен, то функция обеспечивает ссылку на загрузку.
Загрузите данные о прогнозах погоды и создайте массив tokenizedDocument
.
Преобразуйте документы последовательностям векторов слова с помощью doc2sequence
. Функция doc2sequence
, по умолчанию, лево-заполняет последовательности, чтобы иметь ту же длину. При преобразовании большого количества документов с помощью высоко-размерного встраивания слова дополнение может потребовать больших объемов памяти. Чтобы препятствовать тому, чтобы функция дополнила данные, установите опцию 'PaddingDirection'
на 'none'
. Также можно управлять объемом дополнения использования опции 'Length'
.
Просмотрите размеры первых 10 последовательностей. Каждая последовательность является D-by-S матрицей, где D является размерностью встраивания, и S является количеством векторов слова в последовательности.
ans = 10×1 cell array
{300×8 single}
{300×39 single}
{300×14 single}
{300×14 single}
{300×0 single}
{300×15 single}
{300×20 single}
{300×6 single}
{300×21 single}
{300×10 single}