trainWordEmbedding

Обучите встраивание слова

Синтаксис

emb = trainWordEmbedding(filename)

emb = trainWordEmbedding(documents)

emb = trainWordEmbedding(___,Name,Value)

Описание

emb = trainWordEmbedding(filename) обучает встраивание слова с помощью обучающих данных, хранимых в текстовом файле filename. Файл является набором документов, хранивших в UTF-8 с одним документом на строку и словами, разделенными пробелом.

пример

emb = trainWordEmbedding(documents) обучает встраивание слова с помощью documents путем создания временного файла с writeTextDocument, и затем обучает встраивание с помощью временного файла.

пример

emb = trainWordEmbedding(___,Name,Value) задает дополнительные опции с помощью одного или нескольких аргументов пары "имя-значение". Например, 'Dimension',50 задает размерность встраивания слова, чтобы быть 50.

Примеры

свернуть все

Обучите Word Embedding из файла

Скрипт Open Live Script

Обучите встраивание слова размерности 100 использований текстового файла в качестве примера exampleSonnetsDocuments.txt. Этот файл содержит предварительно обработанные версии сонетов Шекспира с одним сонетом на строку и словами, разделенными пробелом.

filename = "exampleSonnetsDocuments.txt";
emb = trainWordEmbedding(filename)

Training: 100% Loss: 0        Remaining time: 0 hours 0 minutes.

emb = 
  wordEmbedding with properties:

     Dimension: 100
    Vocabulary: [1x502 string]

Просмотрите встраивание слова в текстовый график рассеивания с помощью tsne.

words = emb.Vocabulary;
V = word2vec(emb,words);
XY = tsne(V);
textscatter(XY,words)

Обучите Word Embedding из документов

Скрипт Open Live Script

Обучите встраивание слова с помощью данных в качестве примера sonnetsPreprocessed.txt. Этот файл содержит предварительно обработанные версии сонетов Шекспира. Файл содержит один сонет на строку со словами, разделенными пробелом. Извлеките текст из sonnetsPreprocessed.txt, разделите текст в документы в символах новой строки, и затем маркируйте документы.

filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);

Обучите встраивание слова с помощью trainWordEmbedding.

emb = trainWordEmbedding(documents)

Training: 100% Loss: 0        Remaining time: 0 hours 0 minutes.

emb = 
  wordEmbedding with properties:

     Dimension: 100
    Vocabulary: [1x401 string]

Визуализируйте встраивание слова в текстовый график рассеивания с помощью tsne.

words = emb.Vocabulary;
V = word2vec(emb,words);
XY = tsne(V);
textscatter(XY,words)

Задайте Word Embedding Options

Скрипт Open Live Script

Загрузите данные в качестве примера. Файл sonnetsPreprocessed.txt содержит предварительно обработанные версии сонетов Шекспира. Файл содержит один сонет на строку со словами, разделенными пробелом. Извлеките текст из sonnetsPreprocessed.txt, разделите текст в документы в символах новой строки, и затем маркируйте документы.

filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);

Задайте размерность встраивания слова, чтобы быть 50. Чтобы сократить количество слов, отброшенных моделью, установите 'MinCount' к 3. Чтобы обучаться для дольше, определите номер эпох к 10.

emb = trainWordEmbedding(documents, ...
    'Dimension',50, ...
    'MinCount',3, ...
    'NumEpochs',10)

Training: 100% Loss: 2.68739  Remaining time: 0 hours 0 minutes.

emb = 
  wordEmbedding with properties:

     Dimension: 50
    Vocabulary: [1x750 string]

Просмотрите встраивание слова в текстовый график рассеивания с помощью tsne.

words = emb.Vocabulary;
V = word2vec(emb, words);
XY = tsne(V);
textscatter(XY,words)

Входные параметры

свернуть все

`filename` — Имя файла
строковый скаляр | вектор символов

Имя файла в виде строкового скаляра или вектора символов.

Типы данных: string | char

`documents` — Введите документы
`tokenizedDocument` массив

Введите документы в виде tokenizedDocument массив.

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'Dimension',50 задает размерность встраивания слова, чтобы быть 50.

`'Dimension'` — Размерность встраивания слова
100 (значений по умолчанию) | положительное целое число

Размерность встраивания слова в виде разделенной запятой пары, состоящей из 'Dimension' и неотрицательное целое число.

Пример: 300

`'Window'` — Размер окна контекста
5 (значений по умолчанию) | неотрицательное целое число

Размер окна контекста в виде разделенной запятой пары, состоящей из 'Window' и неотрицательное целое число.

Пример: 10

`'Model'` — Модель
`'skipgram'` (значение по умолчанию) | `'cbow'`

Модель в виде разделенной запятой пары, состоящей из 'Model' и 'skipgram' (пропустите грамм), или 'cbow' (непрерывная сумка слов).

Пример: 'cbow'

`'DiscardFactor'` — Фактор, чтобы определить слово отбрасывает уровень
`1e-4` (значение по умолчанию) | положительная скалярная величина

Фактор, чтобы определить слово отбрасывает уровень в виде разделенной запятой пары, состоящей из 'DiscardFactor' и положительная скалярная величина. Функция отбрасывает слово из входного окна с вероятностью 1-sqrt(t/f) - t/f где f является вероятностью униграммы слова и t DiscardFactor. Обычно, DiscardFactor находится в области значений 1e-3 через 1e-5.

Пример: 0.005

`'LossFunction'` — Функция потерь
`'ns'` (значение по умолчанию) | `'hs'` | `'softmax'`

Функция потерь в виде разделенной запятой пары, состоящей из 'LossFunction' и 'ns' (отрицательная выборка), 'hs' (иерархический softmax), или 'softmax' (softmax).

Пример: 'hs'

`'NumNegativeSamples'` — Количество отрицательных выборок
5 (значений по умолчанию) | положительное целое число

Количество отрицательных выборок для отрицательной функции потерь выборки в виде разделенной запятой пары, состоящей из 'NumNegativeSamples' и положительное целое число. Эта опция только допустима когда LossFunction 'ns'.

Пример: 10

`'NumEpochs'` — Номер эпох
5 (значений по умолчанию) | положительное целое число

Номер эпох для обучения в виде разделенной запятой пары, состоящей из 'NumEpochs' и положительное целое число.

Пример: 10

`'MinCount'` — Минимальное количество слов
5 (значений по умолчанию) | положительное целое число

Минимальное количество слов, чтобы включать во встраивание в виде разделенной запятой пары, состоящей из 'MinCount' и положительное целое число. Функция отбрасывает слова, которые появляются меньше, чем MinCount времена в обучающих данных из словаря.

Пример: 10

`'NGramRange'` — Включительно расположитесь для N-грамм подслова
[3 6] (значение по умолчанию) | вектор из двух неотрицательных целых чисел

Включительно расположитесь для N-грамм подслова в виде разделенной запятой пары, состоящей из 'NGramRange' и вектор из двух неотрицательных целых чисел [min max]. Если вы не хотите использовать N-граммы, то установленный 'NGramRange' к [0 0].

Пример: [5 10]

`'InitialLearnRate'` — Начальная буква изучает уровень
0,05 (значения по умолчанию) | положительная скалярная величина

Начальная буква изучает уровень в виде разделенной запятой пары, состоящей из 'InitialLearnRate' и положительная скалярная величина.

Пример: 0.01

`'UpdateRate'` — Уровень для обновления изучает уровень
100 (значений по умолчанию) | положительное целое число

Уровень для обновления изучить уровня в виде разделенной запятой пары, состоящей из 'UpdateRate' и положительное целое число. Изучить уровень уменьшается, чтобы обнулить линейно на шагах каждый N слова, где N является UpdateRate.

Пример: 50

`'Verbose'` — Уровень многословия
1 (значение по умолчанию) | 0

Уровень многословия в виде разделенной запятой пары, состоящей из 'Verbose' и одно из следующего:

0 – Не отображайте многословный вывод.
1 – Отобразите информацию о прогрессе.

Пример: 'Verbose',0

Выходные аргументы

свернуть все

`emb` — Выведите встраивание слова
встраивание слова

Выведите встраивание слова, возвращенное как wordEmbedding объект.

Больше о

свернуть все

Факторы языка

Вход File к trainWordEmbedding функция требует слов, разделенных пробелом.

Для файлов, содержащих неанглийский текст, вы можете должны быть ввести tokenizedDocument массив к trainWordEmbedding.

Создать tokenizedDocument массив из предварительно маркируемого текста, используйте tokenizedDocument функция и набор 'TokenizeMethod' опция к 'none'.

Советы

Алгоритм настройки использует количество потоков, данных функцией maxNumCompThreads. Чтобы изучить, как изменить количество потоков, используемых MATLAB^®, смотрите maxNumCompThreads.

Темы

Введенный в R2017b

Документация

trainWordEmbedding

Синтаксис

Описание

Примеры

Обучите Word Embedding из файла

Обучите Word Embedding из документов

Задайте Word Embedding Options

Входные параметры

`filename` — Имя файла
строковый скаляр | вектор символов

`documents` — Введите документы
`tokenizedDocument` массив

Аргументы в виде пар имя-значение

`'Dimension'` — Размерность встраивания слова
100 (значений по умолчанию) | положительное целое число

`'Window'` — Размер окна контекста
5 (значений по умолчанию) | неотрицательное целое число

`'Model'` — Модель
`'skipgram'` (значение по умолчанию) | `'cbow'`

`'DiscardFactor'` — Фактор, чтобы определить слово отбрасывает уровень
`1e-4` (значение по умолчанию) | положительная скалярная величина

`'LossFunction'` — Функция потерь
`'ns'` (значение по умолчанию) | `'hs'` | `'softmax'`

`'NumNegativeSamples'` — Количество отрицательных выборок
5 (значений по умолчанию) | положительное целое число

`'NumEpochs'` — Номер эпох
5 (значений по умолчанию) | положительное целое число

`'MinCount'` — Минимальное количество слов
5 (значений по умолчанию) | положительное целое число

`'NGramRange'` — Включительно расположитесь для N-грамм подслова
[3 6] (значение по умолчанию) | вектор из двух неотрицательных целых чисел

`'InitialLearnRate'` — Начальная буква изучает уровень
0,05 (значения по умолчанию) | положительная скалярная величина

`'UpdateRate'` — Уровень для обновления изучает уровень
100 (значений по умолчанию) | положительное целое число

`'Verbose'` — Уровень многословия
1 (значение по умолчанию) | 0

Выходные аргументы

`emb` — Выведите встраивание слова
встраивание слова

Больше о

Факторы языка

Советы

Смотрите также

Темы

Документация Text Analytics Toolbox

Поддержка

Документация

trainWordEmbedding

Синтаксис

Описание

Примеры

Обучите Word Embedding из файла

Обучите Word Embedding из документов

Задайте Word Embedding Options

Входные параметры

filename — Имя файла строковый скаляр | вектор символов

documents — Введите документы tokenizedDocument массив

Аргументы в виде пар имя-значение

'Dimension' — Размерность встраивания слова 100 (значений по умолчанию) | положительное целое число

'Window' — Размер окна контекста 5 (значений по умолчанию) | неотрицательное целое число

'Model' — Модель 'skipgram' (значение по умолчанию) | 'cbow'

'DiscardFactor' — Фактор, чтобы определить слово отбрасывает уровень 1e-4 (значение по умолчанию) | положительная скалярная величина

'LossFunction' — Функция потерь 'ns' (значение по умолчанию) | 'hs' | 'softmax'

'NumNegativeSamples' — Количество отрицательных выборок 5 (значений по умолчанию) | положительное целое число

'NumEpochs' — Номер эпох 5 (значений по умолчанию) | положительное целое число

'MinCount' — Минимальное количество слов 5 (значений по умолчанию) | положительное целое число

'NGramRange' — Включительно расположитесь для N-грамм подслова[3 6] (значение по умолчанию) | вектор из двух неотрицательных целых чисел

'InitialLearnRate' — Начальная буква изучает уровень 0,05 (значения по умолчанию) | положительная скалярная величина

'UpdateRate' — Уровень для обновления изучает уровень 100 (значений по умолчанию) | положительное целое число

'Verbose' — Уровень многословия 1 (значение по умолчанию) | 0

Выходные аргументы

emb — Выведите встраивание слова встраивание слова

Больше о

Факторы языка

Советы

Смотрите также

Темы

Документация Text Analytics Toolbox

Поддержка

`filename` — Имя файла
строковый скаляр | вектор символов

`documents` — Введите документы
`tokenizedDocument` массив

`'Dimension'` — Размерность встраивания слова
100 (значений по умолчанию) | положительное целое число

`'Window'` — Размер окна контекста
5 (значений по умолчанию) | неотрицательное целое число

`'Model'` — Модель
`'skipgram'` (значение по умолчанию) | `'cbow'`

`'DiscardFactor'` — Фактор, чтобы определить слово отбрасывает уровень
`1e-4` (значение по умолчанию) | положительная скалярная величина

`'LossFunction'` — Функция потерь
`'ns'` (значение по умолчанию) | `'hs'` | `'softmax'`

`'NumNegativeSamples'` — Количество отрицательных выборок
5 (значений по умолчанию) | положительное целое число

`'NumEpochs'` — Номер эпох
5 (значений по умолчанию) | положительное целое число

`'MinCount'` — Минимальное количество слов
5 (значений по умолчанию) | положительное целое число

`'NGramRange'` — Включительно расположитесь для N-грамм подслова
[3 6] (значение по умолчанию) | вектор из двух неотрицательных целых чисел

`'InitialLearnRate'` — Начальная буква изучает уровень
0,05 (значения по умолчанию) | положительная скалярная величина

`'UpdateRate'` — Уровень для обновления изучает уровень
100 (значений по умолчанию) | положительное целое число

`'Verbose'` — Уровень многословия
1 (значение по умолчанию) | 0

`emb` — Выведите встраивание слова
встраивание слова