exponenta event banner

Моделирование и прогнозирование

Разработка прогнозных моделей с использованием тематических моделей и встраиваемых слов

Для поиска кластеров и извлечения элементов из наборов данных из многомерного текста можно использовать методы и модели машинного обучения, такие как LSA, LDA и встраивание слов. Можно комбинировать элементы, созданные с помощью Toolbox™ Text Analytics, с элементами из других источников данных. С помощью этих функций можно создавать модели машинного обучения, использующие преимущества текстовых, цифровых и других типов данных.

Функции

развернуть все

bagOfWordsМодель сумки слов
bagOfNgramsМодель мешка n-граммов
addDocumentДобавление документов в модель «мешок слов» или «мешок n-грамм»
removeDocumentУдалить документы из модели мешка слов или мешка n граммов
removeInfrequentWordsУдалить слова с низкими счетчиками из модели сумки слов
removeInfrequentNgramsУдаление редко встречающихся n-грамм из модели мешков n-грамм
removeWordsУдалить выбранные слова из документов или модели мешка слов
removeNgramsУдалить n-грамм из модели мешков n-грамм
removeEmptyDocumentsУдаление пустых документов из маркированного массива документов, модели мешка слов или модели мешка n грамм
topkwordsНаиболее важные слова в сумке слов модели или темы LDA
topkngramsНаиболее часто n-грамм
encodeКодировать документы как матрицу числа слов или n-граммов
tfidfМатрица Term Frequency-Inverse Document Frequency (tf-idf)
joinОбъединение нескольких моделей мешков слов или мешков n граммов
vaderSentimentScoresОценки настроений с помощью алгоритма VADER
ratioSentimentScoresОценки настроений с правилом соотношения
fastTextWordEmbeddingПредварительно обученное вложение текстового слова
wordEncodingМодель кодирования слов для сопоставления слов с индексами и обратно
doc2sequenceПреобразование документов в последовательности для глубокого обучения
wordEmbeddingLayerУровень внедрения Word для сетей глубокого обучения
word2vecСопоставить слово с вектором встраивания
word2indСопоставить слово с индексом кодирования
vec2wordОтображение вектора встраивания в слово
ind2wordСопоставить индекс кодировки со словом
isVocabularyWordПроверка, является ли слово элементом встраивания или кодирования слов
readWordEmbeddingЧтение слова встраивания из файла
trainWordEmbeddingВстраивание обучающего слова
writeWordEmbeddingЗапись файла встраивания слов
wordEmbeddingВстраиваемая модель Word для отображения слов на векторы и обратно
extractSummaryИзвлечение сводки из документов
rakeKeywordsИзвлечь ключевые слова с помощью RAKE
textrankKeywordsИзвлечение ключевых слов с помощью TextRank
bleuEvaluationScoreОценка трансляции или уплотнения с оценкой подобия BLEU
rougeEvaluationScoreОценка перевода или уплотнения с оценкой сходства ROUGE
bm25SimilarityСходство документа с алгоритмом BM25
cosineSimilarityСходство документа с косинусным сходством
textrankScoresОценка документа с помощью алгоритма TextRank
lexrankScoresОценка документов с помощью алгоритма LexRank
mmrScoresОценка документов с помощью алгоритма максимальной предельной релевантности (MMR)
fitldaПодгонка скрытой модели распределения Дирихле (LDA)
fitlsaПодгонка модели LSA
resumeВозобновить установку модели LDA
logpДокументирование вероятностей и достоверности соответствия модели LDA
predictПрогнозирование основных тем документов LDA
transformПреобразование документов в пространство нижних размеров
ldaModelЛатентная модель распределения Дирихле (LDA)
lsaModelМодель латентного семантического анализа (LSA)
wordcloudСоздание таблицы облака слов из текста, модели мешка слов, модели мешка n граммов или модели LDA
textscatter2-D график разброса текста
textscatter33-D график разброса текста

Темы

Классификация и моделирование

Создание простой функции предварительной обработки

В этом примере показано, как создать функцию очистки и предварительной обработки текстовых данных для анализа.

Создание простой текстовой модели для классификации

В этом примере показано, как обучить простой классификатор текста подсчетам частоты слов с помощью модели мешка слов.

Анализ текстовых данных с помощью многословных фраз

В этом примере показано, как анализировать текст, используя n-граммовые счетчики частоты.

Анализ текстовых данных с использованием тематических моделей

В этом примере показано, как использовать модель темы LDA для анализа текстовых данных.

Выбор количества тем для модели LDA

В этом примере показано, как выбрать подходящее количество тем для скрытой модели распределения Дирихле (LDA).

Сравнение решателей LDA

В этом примере показано, как сравнивать латентные решатели распределения Дирихле (LDA), сравнивая доброту подгонки и время, затрачиваемое на подгонку модели.

Анализ настроений и извлечение ключевых слов

Анализ настроений в тексте

В этом примере показано, как использовать алгоритм Valence Aware Dictionary and Sentement Reasoner (VADER) для анализа настроений.

Создать лексикон для конкретных областей

В этом примере показано, как создать лексикон для анализа настроений с использованием 10-K и 10-Q финансовых отчетов.

Подготовка классификатора настроений

В этом примере показано, как обучить классификатор анализу настроений с помощью аннотированного списка положительных и отрицательных чувств и предварительно подготовленного встраивания слов.

Извлечь ключевые слова из текстовых данных с помощью RAKE

В этом примере показано, как извлечь ключевые слова из текстовых данных с помощью функции быстрого автоматического извлечения ключевых слов (RAKE).

Извлечение ключевых слов из текстовых данных с помощью TextRank

В этом примере показано извлечение ключевых слов из текстовых данных с помощью TextRank.

Глубокое обучение

Классификация текстовых данных с помощью глубокого обучения

В этом примере показано, как классифицировать текстовые данные с помощью сети LSTM.

Классификация текстовых данных с использованием сверточной нейронной сети

В этом примере показано, как классифицировать текстовые данные с помощью сверточной нейронной сети.

Классификация недостающих данных текста с помощью глубокого обучения

В этом примере показано, как классифицировать текстовые данные из памяти с помощью сети глубокого обучения с использованием преобразованного хранилища данных.

Преобразование последовательности в последовательность с использованием внимания

В этом примере показано, как преобразовывать десятичные строки в римские цифры с помощью повторяющейся модели кодера-декодера последовательности.

Классификация текста Multilabel с использованием глубокого обучения

В этом примере показано, как классифицировать текстовые данные с несколькими независимыми метками.

Создание текста с помощью глубокого обучения (панель инструментов глубокого обучения)

В этом примере показано, как обучить сеть долговременной памяти глубокого обучения (LSTM) генерировать текст.

Гордость и предубеждение и MATLAB

В этом примере показано, как обучить сеть LSTM глубокому обучению создавать текст с использованием вставок символов.

Создание текста «слово за словом» с помощью глубокого обучения

В этом примере показано, как обучить сеть LSTM глубокому обучению создавать текст слово за словом.

Классификация текстовых данных с помощью настраиваемого цикла обучения

В этом примере показано, как классифицировать текстовые данные с помощью сети BiLSTM с глубоким обучением и двунаправленной долговременной памятью (BiLSTM) с пользовательским обучающим циклом.

Создание текста с помощью автокодеров

В этом примере показано, как создавать текстовые данные с помощью автокодеров.

Определение функции модели кодировщика текста

В этом примере показано, как определить функцию модели текстового кодера.

Определение функции модели декодера текста

В этом примере показано, как определить функцию модели текстового декодера.

Языковая поддержка

Языковые соображения

Сведения об использовании инструментов Text Analytics Toolbox для других языков.

Поддержка японского языка

Информация о поддержке на японском языке в инструментарии Text Analytics Toolbox.

Анализ текстовых данных на японском языке

В этом примере показано, как импортировать, подготовить и проанализировать японские текстовые данные с использованием тематической модели.

Поддержка немецкого языка

Информация о поддержке на немецком языке в инструментарии Text Analytics Toolbox.

Анализ текстовых данных на немецком языке

В этом примере показано, как импортировать, подготовить и проанализировать текстовые данные на немецком языке с использованием тематической модели.

Характерные примеры