fastTextWordEmbedding

Предварительно обученное fastText встраивание слова

Синтаксис

Описание

пример

emb = fastTextWordEmbedding возвращает 300-мерное предварительно обученное встраивание слова для 1 миллиона английских слов.

Эта функция требует Модели Text Analytics Toolbox™ для fastText английских 16 миллиардов Лексем пакет поддержки Word Embedding. Если этот пакет поддержки не установлен, функция обеспечивает ссылку на загрузку.

Примеры

свернуть все

Загрузите и установите Модель Text Analytics Toolbox для fastText английских 16 миллиардов Лексем пакет поддержки Word Embedding.

Введите fastTextWordEmbedding в командной строке.

fastTextWordEmbedding

Если Модель Text Analytics Toolbox для fastText английских 16 миллиардов Лексем, пакет поддержки Word Embedding не установлен, то функция обеспечивает ссылку на необходимый пакет поддержки в Add-On Explorer. Чтобы установить пакет поддержки, щелкните по ссылке, и затем нажмите Install. Проверяйте, что установка успешна путем ввода emb = fastTextWordEmbedding в командной строке.

emb = fastTextWordEmbedding
emb = 

  wordEmbedding with properties:

     Dimension: 300
    Vocabulary: [1×1000000 string]

Если необходимый пакет поддержки установлен, то функция возвращает wordEmbedding объект.

Загрузите предварительно обученное встраивание слова с помощью fastTextWordEmbedding. Эта функция требует Модели Text Analytics Toolbox™ для fastText английских 16 миллиардов Лексем пакет поддержки Word Embedding. Если этот пакет поддержки не установлен, то функция обеспечивает ссылку на загрузку.

emb = fastTextWordEmbedding
emb = 
  wordEmbedding with properties:

     Dimension: 300
    Vocabulary: [1×1000000 string]

Сопоставьте слова "Italy", "Рим" и "Париж" к векторам с помощью word2vec.

italy = word2vec(emb,"Italy");
rome = word2vec(emb,"Rome");
paris = word2vec(emb,"Paris");

Сопоставьте векторный italy - rome + paris к слову с помощью vec2word.

word = vec2word(emb,italy - rome + paris)
word = 
"France"

Преобразуйте массив маркируемых документов последовательностям векторов слова с помощью предварительно обученного встраивания слова.

Загрузите предварительно обученное встраивание слова с помощью fastTextWordEmbedding функция. Эта функция требует Модели Text Analytics Toolbox™ для fastText английских 16 миллиардов Лексем пакет поддержки Word Embedding. Если этот пакет поддержки не установлен, то функция обеспечивает ссылку на загрузку.

emb = fastTextWordEmbedding;

Загрузите данные об отчетах фабрики и создайте tokenizedDocument массив.

filename = "factoryReports.csv";
data = readtable(filename,'TextType','string');
textData = data.Description;
documents = tokenizedDocument(textData);

Преобразуйте документы последовательностям векторов слова с помощью doc2sequence. doc2sequence функция, по умолчанию, лево-заполняет последовательности, чтобы иметь ту же длину. При преобразовании большого количества документов с помощью высоко-размерного встраивания слова дополнение может потребовать больших объемов памяти. Чтобы препятствовать тому, чтобы функция дополнила данные, установите 'PaddingDirection' опция к 'none'. В качестве альтернативы можно управлять объемом дополнения использования 'Length' опция.

sequences = doc2sequence(emb,documents,'PaddingDirection','none');

Просмотрите размеры первых 10 последовательностей. Каждая последовательность является D-by-S матрицей, где D является размерностью встраивания, и S является количеством векторов слова в последовательности.

sequences(1:10)
ans=10×1 cell array
    {300×10 single}
    {300×11 single}
    {300×11 single}
    {300×6  single}
    {300×5  single}
    {300×10 single}
    {300×8  single}
    {300×9  single}
    {300×7  single}
    {300×13 single}

Выходные аргументы

свернуть все

Предварительно обученное встраивание слова, возвращенное как wordEmbedding объект.

Введенный в R2018a