fastTextWordEmbedding

Предварительно обученное вложение текстового слова

Синтаксис

emb = fastTextWordEmbedding

Описание

emb = fastTextWordEmbedding возвращает 300-мерное предварительно подготовленное вложение слова для 1 миллиона английских слов.

Для выполнения этой функции требуется модель Text Analytics Toolbox™ для пакета поддержки внедрения Token Word на английском языке на 16 миллиардов. Если этот пакет поддержки не установлен, функция предоставляет ссылку для загрузки.

Примеры

свернуть все

Загрузить пакет поддержки FastText

Загрузите и установите текстовую Модель Комплекта инструментов Аналитики для fastText английских 16 миллиардов Символов пакет поддержки Word Embedding.

Напечатать fastTextWordEmbedding в командной строке.

fastTextWordEmbedding

Если не установлен пакет поддержки Text Analytics Toolbox Model for startText English 16 млрд Token Word Embedding, то функция предоставляет ссылку на необходимый пакет поддержки в обозревателе Add-On Explorer. Чтобы установить пакет поддержки, щелкните ссылку и нажмите кнопку Установить. Убедитесь, что установка выполнена успешно, введя emb = fastTextWordEmbedding в командной строке.

emb = fastTextWordEmbedding

emb = 

  wordEmbedding with properties:

     Dimension: 300
    Vocabulary: [1×1000000 string]

Если установлен необходимый пакет поддержки, функция возвращает wordEmbedding объект.

Сопоставить слова векторам и обратно

Открыть сценарий в реальном времени

Загрузить предварительно подготовленное вложение слов с помощью fastTextWordEmbedding. Для выполнения этой функции требуется модель Text Analytics Toolbox™ для пакета поддержки внедрения Token Word на английском языке на 16 миллиардов. Если этот пакет поддержки не установлен, функция предоставляет ссылку для загрузки.

emb = fastTextWordEmbedding

emb = 
  wordEmbedding with properties:

     Dimension: 300
    Vocabulary: [1×1000000 string]

Отображение слов «Италия», «Рим» и «Париж» на векторы с использованием word2vec.

italy = word2vec(emb,"Italy");
rome = word2vec(emb,"Rome");
paris = word2vec(emb,"Paris");

Отображение вектора italy - rome + paris к слову, использующему vec2word.

word = vec2word(emb,italy - rome + paris)

word = 
"France"

Преобразование документов в последовательности векторов Word

Открыть сценарий в реальном времени

Преобразуйте массив токенизированных документов в последовательности векторов слов, используя предварительно подготовленное вложение слов.

Загрузите предварительно подготовленное вложение слов с помощью fastTextWordEmbedding функция. Для выполнения этой функции требуется модель Text Analytics Toolbox™ для пакета поддержки внедрения Token Word на английском языке на 16 миллиардов. Если этот пакет поддержки не установлен, функция предоставляет ссылку для загрузки.

emb = fastTextWordEmbedding;

Загрузите данные производственных отчетов и создайте tokenizedDocument массив.

filename = "factoryReports.csv";
data = readtable(filename,'TextType','string');
textData = data.Description;
documents = tokenizedDocument(textData);

Преобразование документов в последовательности векторов слов с помощью doc2sequence. doc2sequence функция, по умолчанию, размещает слева последовательности одинаковой длины. При преобразовании больших коллекций документов с помощью высокоразмерного встраивания слов заполнение может потребовать больших объёмов памяти. Чтобы предотвратить заполнение данных функцией, установите 'PaddingDirection' опция для 'none'. Кроме того, можно управлять количеством заполнения с помощью 'Length' вариант.

sequences = doc2sequence(emb,documents,'PaddingDirection','none');

Просмотрите размеры первых 10 последовательностей. Каждая последовательность является матрицей D-by-S, где D - размерность внедрения, а S - количество векторов слов в последовательности.

sequences(1:10)

ans=10×1 cell array
    {300×10 single}
    {300×11 single}
    {300×11 single}
    {300×6  single}
    {300×5  single}
    {300×10 single}
    {300×8  single}
    {300×9  single}
    {300×7  single}
    {300×13 single}

Выходные аргументы

свернуть все

`emb` - Предварительное вложение слов
`wordEmbedding` объект

Предварительно обученное вложение слова, возвращенное как wordEmbedding объект.

См. также

Темы

Представлен в R2018a

Документация

fastTextWordEmbedding

Синтаксис

Описание

Примеры

Загрузить пакет поддержки FastText

Сопоставить слова векторам и обратно

Преобразование документов в последовательности векторов Word

Выходные аргументы

`emb` - Предварительное вложение слов
`wordEmbedding` объект

См. также

Темы

Документация по инструментам для анализа текста

Поддержка

Документация

fastTextWordEmbedding

Синтаксис

Описание

Примеры

Загрузить пакет поддержки FastText

Сопоставить слова векторам и обратно

Преобразование документов в последовательности векторов Word

Выходные аргументы

emb - Предварительное вложение слов wordEmbedding объект

См. также

Темы

Документация по инструментам для анализа текста

Поддержка

`emb` - Предварительное вложение слов
`wordEmbedding` объект