Моделирование и предсказание

Разрабатывайте прогнозирующие модели с использованием тематических моделей и встраиваний слов

Чтобы найти кластеры и извлечь функции из высоко-размерных наборов данных, можно использовать методы машинного обучения и модели, такие как LSA, LDA и вложения слов. Можно объединить функции, созданные с помощью Text Analytics Toolbox™ с функциями из других источников данных. С помощью этих функций можно создавать модели машинного обучения, которые используют преимущества текстовых, числовых и других типов данных.

Функции

расширить все

bagOfWordsМодель мешка слов
bagOfNgramsМодель мешка n-граммов
addDocumentДобавьте документы в модель мешка слов или мешка n-граммов
removeDocumentУдалите документы из модели мешка слов или мешка n-граммов
removeInfrequentWordsУдалите слова с низким количеством из модели мешка слов
removeInfrequentNgramsУдалите нечасто замеченные n-граммы из модели мешка n-граммов
removeWordsУдалите выбранные слова из документов или модели мешка слов
removeNgramsУдалите n-граммы из модели мешка n-граммов
removeEmptyDocumentsУдалите пустые документы из токенизированного массива документов, модели мешка слов или модели мешка n-граммов
topkwordsСамые важные слова в модели мешка слов или теме LDA
topkngramsНаиболее частые n-граммы
encodeЗакодируйте документы как матрицу счетчиков слов или n-граммов
tfidfTerm Frequency-Inverse Document Frequency (tf-idf) матрица
joinОбъедините несколько моделей мешка слов или мешка n-граммов
vaderSentimentScoresСчета настроения с алгоритмом VADER
ratioSentimentScoresСчета настроения с правилом коэффициента
fastTextWordEmbeddingПредварительно обученное встраивание слов fastText
wordEncodingМодель кодирования слов для сопоставления слов с индексами и назад
doc2sequenceПреобразуйте документы в последовательности для глубокого обучения
wordEmbeddingLayerСлой встраивания слов для нейронных сетей для глубокого обучения
word2vecСопоставьте слово с вектором встраивания
word2indСопоставить слово с индексом кодирования
vec2wordСопоставьте вектор встраивания с словом
ind2wordСопоставьте индекс кодировки со словом
isVocabularyWordПроверяйте, является ли слово представителем встраивания или кодирования слов
readWordEmbeddingЧтение встраивания слова из файла
trainWordEmbeddingОбучите встраиванию слов
writeWordEmbeddingЗапись файла встраивания слов
wordEmbeddingМодель встраивания слов для сопоставления слов с векторами и назад
extractSummaryИзвлечение сводных данных из документов
rakeKeywordsИзвлечение ключевых слов с помощью RAKE
textrankKeywordsИзвлечение ключевых слов с помощью TextRank
bleuEvaluationScoreОцените перевод или суммирование с счетом подобия BLEU
rougeEvaluationScoreОцените перевод или суммирование с счетом подобия ROUGE
bm25SimilarityДокументируйте сходство с BM25 алгоритмом
cosineSimilarityДокументируйте сходство с косинусоидальным подобием
textrankScoresОценка документа с помощью алгоритма TextRank
lexrankScoresОценка документов с помощью алгоритма LexRank
mmrScoresОценка документа с помощью алгоритма максимальной маргинальной релевантности (MMR)
fitldaПодгонка модели латентного распределения Дирихле (LDA)
fitlsaПодгонка модели LSA
resumeВозобновите подгонку модели LDA
logpЛогарифмические вероятности и качество подгонки модели LDA
predictПрогнозирование основных тем LDA документов
transformПреобразуйте документы в низкомерное пространство
ldaModelМодель латентного распределения Дирихле (LDA)
lsaModelМодель латентного семантического анализа (LSA)
wordcloudСоздайте график облака слов из текста, модели мешка слов, модели мешка n-граммов или модели LDA
textscatter2-D график поля точек текста
textscatter33-D точечный график текста

Темы

Классификация и моделирование

Создайте простую функцию предварительной обработки

В этом примере показано, как создать функцию, которая очищает и предварительно обрабатывает текстовые данные для анализа.

Создайте простую текстовую модель для классификации

В этом примере показано, как обучить простой классификатор текста по счетчикам частот слов с помощью модели мешка слов.

Анализируйте текстовые данные с помощью многословных выражений

В этом примере показано, как анализировать текст с использованием n-граммовых отсчётов частоты.

Анализируйте текстовые данные с помощью тематических моделей

В этом примере показано, как использовать модель темы Latent Dirichlet Allocation (LDA) для анализа текстовых данных.

Выберите количество тем для модели LDA

В этом примере показано, как решить подходящее количество тем для модели латентного распределения Дирихле (LDA).

Сравнение решателей LDA

Этот пример показывает, как сравнить латентные решатели распределения Дирихле (LDA), сравнивая качество подгонки и время, необходимое для подгонки модели.

Анализ настроений и экстракция ключевых слов

Анализ настроения в тексте

В этом примере показано, как использовать словарь Valence Aware и алгоритм sEntiment Reasoner (VADER) для анализа настроений.

Сгенерируйте Lexicon специфичного для области настроений

В этом примере показано, как сгенерировать лексикон для анализа настроений с помощью 10-K и 10-Q финансовых отчетов.

Обучите классификатор настроений

В этом примере показано, как обучить классификатор для анализа настроений с помощью аннотированного списка положительных и отрицательных слов настроения и предварительно обученного встраивания слова.

Извлечение ключевых слов из текстовых данных с помощью RAKE

В этом примере показано, как извлечь ключевые слова из текстовых данных с помощью Rapid Automatic Keyword Extraction (RAKE).

Извлечение ключевых слов из текстовых данных с помощью TextRank

Этот пример показывает, чтобы извлечь ключевые слова из текстовых данных с помощью TextRank.

Глубокое обучение

Классификация текстовых данных с помощью глубокого обучения

В этом примере показано, как классифицировать текстовые данные с помощью сети глубокого обучения с длительной краткосрочной памятью (LSTM).

Классификация текстовых данных с помощью сверточной нейронной сети

В этом примере показано, как классифицировать текстовые данные с помощью сверточной нейронной сети.

Классификация текстовых данных за пределами памяти с помощью глубокого обучения

В этом примере показано, как классифицировать текстовые данные за пределами памяти с помощью нейронной сети для глубокого обучения с помощью преобразованного datastore.

Перемещение последовательности в последовательность с использованием внимания

В этом примере показано, как преобразовать десятичные строки в римские числа с помощью рекуррентной модели кодер-декодер последовательности в последовательность с вниманием.

Многоуровневая классификация текста с использованием глубокого обучения

В этом примере показано, как классифицировать текстовые данные, которые имеют несколько независимых меток.

Сгенерируйте текст с помощью глубокого обучения (Deep Learning Toolbox)

В этом примере показано, как обучить сеть глубокого обучения с длительной краткосрочной памятью (LSTM) для генерации текста.

Гордость и предубеждения и MATLAB

В этом примере показано, как обучить сеть LSTM глубокого обучения для генерации текста с помощью вложений символов.

Генерация текста Word-By-Word с использованием глубокого обучения

В этом примере показано, как обучить сеть LSTM глубокого обучения генерировать текстовое слово за словом.

Классификация текстовых данных с помощью пользовательского цикла обучения

В этом примере показано, как классифицировать текстовые данные с помощью сети глубокого обучения с двунаправленной длинной краткосрочной памятью (BiLSTM) с помощью пользовательского цикла обучения.

Сгенерируйте текст с помощью автоэнкодеров

В этом примере показано, как сгенерировать текстовые данные с помощью автоэнкодеров.

Задайте функцию модели текстового энкодера

В этом примере показано, как задать функцию модели текстового энкодера.

Задайте функцию модели декодера текста

Этот пример показывает, как задать функцию модели декодера текста.

Языковая поддержка

Языковые факторы

Сведения об использовании функций Symbolic Math Toolbox для других языков.

Поддержка японского языка

Информация о поддержке японского языка в Symbolic Math Toolbox.

Анализируйте японские текстовые данные

В этом примере показано, как импортировать, подготовить и проанализировать японские текстовые данные с помощью модели темы.

Поддержка немецкого языка

Информация о поддержке немецкого языка в Symbolic Math Toolbox.

Анализ текстовых данных на немецком языке

В этом примере показано, как импортировать, подготовить и проанализировать текстовые данные на немецком языке с помощью модели темы.

Рекомендуемые примеры

Для просмотра документации необходимо авторизоваться на сайте