Моделирование и предсказание

Разрабатывайте прогнозирующие модели с использованием тематических моделей и встраиваний слов

Чтобы найти кластеры и извлечь функции из высоко-размерных наборов данных, можно использовать методы машинного обучения и модели, такие как LSA, LDA и вложения слов. Можно объединить функции, созданные с помощью Text Analytics Toolbox™ с функциями из других источников данных. С помощью этих функций можно создавать модели машинного обучения, которые используют преимущества текстовых, числовых и других типов данных.

Функции

расширить все

Подсчет слов и N-граммов

`bagOfWords`	Модель мешка слов
`bagOfNgrams`	Модель мешка n-граммов
`addDocument`	Добавьте документы в модель мешка слов или мешка n-граммов
`removeDocument`	Удалите документы из модели мешка слов или мешка n-граммов
`removeInfrequentWords`	Удалите слова с низким количеством из модели мешка слов
`removeInfrequentNgrams`	Удалите нечасто замеченные n-граммы из модели мешка n-граммов
`removeWords`	Удалите выбранные слова из документов или модели мешка слов
`removeNgrams`	Удалите n-граммы из модели мешка n-граммов
`removeEmptyDocuments`	Удалите пустые документы из токенизированного массива документов, модели мешка слов или модели мешка n-граммов
`topkwords`	Самые важные слова в модели мешка слов или теме LDA
`topkngrams`	Наиболее частые n-граммы
`encode`	Закодируйте документы как матрицу счетчиков слов или n-граммов
`tfidf`	Term Frequency-Inverse Document Frequency (tf-idf) матрица
`join`	Объедините несколько моделей мешка слов или мешка n-граммов

Анализ настроений

`vaderSentimentScores`	Счета настроения с алгоритмом VADER
`ratioSentimentScores`	Счета настроения с правилом коэффициента

Встраивания и кодировки Word

`fastTextWordEmbedding`	Предварительно обученное встраивание слов fastText
`wordEncoding`	Модель кодирования слов для сопоставления слов с индексами и назад
`doc2sequence`	Преобразуйте документы в последовательности для глубокого обучения
`wordEmbeddingLayer`	Слой встраивания слов для нейронных сетей для глубокого обучения
`word2vec`	Сопоставьте слово с вектором встраивания
`word2ind`	Сопоставить слово с индексом кодирования
`vec2word`	Сопоставьте вектор встраивания с словом
`ind2word`	Сопоставьте индекс кодировки со словом
`isVocabularyWord`	Проверяйте, является ли слово представителем встраивания или кодирования слов
`readWordEmbedding`	Чтение встраивания слова из файла
`trainWordEmbedding`	Обучите встраиванию слов
`writeWordEmbedding`	Запись файла встраивания слов
`wordEmbedding`	Модель встраивания слов для сопоставления слов с векторами и назад

Суммирование и подобие документа

`extractSummary`	Извлечение сводных данных из документов
`rakeKeywords`	Извлечение ключевых слов с помощью RAKE
`textrankKeywords`	Извлечение ключевых слов с помощью TextRank
`bleuEvaluationScore`	Оцените перевод или суммирование с счетом подобия BLEU
`rougeEvaluationScore`	Оцените перевод или суммирование с счетом подобия ROUGE
`bm25Similarity`	Документируйте сходство с BM25 алгоритмом
`cosineSimilarity`	Документируйте сходство с косинусоидальным подобием
`textrankScores`	Оценка документа с помощью алгоритма TextRank
`lexrankScores`	Оценка документов с помощью алгоритма LexRank
`mmrScores`	Оценка документа с помощью алгоритма максимальной маргинальной релевантности (MMR)

Моделирование тем и уменьшение размерностей

`fitlda`	Подгонка модели латентного распределения Дирихле (LDA)
`fitlsa`	Подгонка модели LSA
`resume`	Возобновите подгонку модели LDA
`logp`	Логарифмические вероятности и качество подгонки модели LDA
`predict`	Прогнозирование основных тем LDA документов
`transform`	Преобразуйте документы в низкомерное пространство
`ldaModel`	Модель латентного распределения Дирихле (LDA)
`lsaModel`	Модель латентного семантического анализа (LSA)

Визуализация

`wordcloud`	Создайте график облака слов из текста, модели мешка слов, модели мешка n-граммов или модели LDA
`textscatter`	2-D график поля точек текста
`textscatter3`	3-D точечный график текста

Темы

Классификация и моделирование

Создайте простую функцию предварительной обработки

В этом примере показано, как создать функцию, которая очищает и предварительно обрабатывает текстовые данные для анализа.

Создайте простую текстовую модель для классификации

В этом примере показано, как обучить простой классификатор текста по счетчикам частот слов с помощью модели мешка слов.

Анализируйте текстовые данные с помощью многословных выражений

В этом примере показано, как анализировать текст с использованием n-граммовых отсчётов частоты.

Анализируйте текстовые данные с помощью тематических моделей

В этом примере показано, как использовать модель темы Latent Dirichlet Allocation (LDA) для анализа текстовых данных.

Выберите количество тем для модели LDA

В этом примере показано, как решить подходящее количество тем для модели латентного распределения Дирихле (LDA).

Сравнение решателей LDA

Этот пример показывает, как сравнить латентные решатели распределения Дирихле (LDA), сравнивая качество подгонки и время, необходимое для подгонки модели.

Анализ настроений и экстракция ключевых слов

Анализ настроения в тексте

В этом примере показано, как использовать словарь Valence Aware и алгоритм sEntiment Reasoner (VADER) для анализа настроений.

Сгенерируйте Lexicon специфичного для области настроений

В этом примере показано, как сгенерировать лексикон для анализа настроений с помощью 10-K и 10-Q финансовых отчетов.

Обучите классификатор настроений

В этом примере показано, как обучить классификатор для анализа настроений с помощью аннотированного списка положительных и отрицательных слов настроения и предварительно обученного встраивания слова.

Извлечение ключевых слов из текстовых данных с помощью RAKE

В этом примере показано, как извлечь ключевые слова из текстовых данных с помощью Rapid Automatic Keyword Extraction (RAKE).

Извлечение ключевых слов из текстовых данных с помощью TextRank

Этот пример показывает, чтобы извлечь ключевые слова из текстовых данных с помощью TextRank.

Глубокое обучение

Классификация текстовых данных с помощью глубокого обучения

В этом примере показано, как классифицировать текстовые данные с помощью сети глубокого обучения с длительной краткосрочной памятью (LSTM).

Классификация текстовых данных с помощью сверточной нейронной сети

В этом примере показано, как классифицировать текстовые данные с помощью сверточной нейронной сети.

Классификация текстовых данных за пределами памяти с помощью глубокого обучения

В этом примере показано, как классифицировать текстовые данные за пределами памяти с помощью нейронной сети для глубокого обучения с помощью преобразованного datastore.

Перемещение последовательности в последовательность с использованием внимания

В этом примере показано, как преобразовать десятичные строки в римские числа с помощью рекуррентной модели кодер-декодер последовательности в последовательность с вниманием.

Многоуровневая классификация текста с использованием глубокого обучения

В этом примере показано, как классифицировать текстовые данные, которые имеют несколько независимых меток.

Сгенерируйте текст с помощью глубокого обучения (Deep Learning Toolbox)

В этом примере показано, как обучить сеть глубокого обучения с длительной краткосрочной памятью (LSTM) для генерации текста.

Гордость и предубеждения и MATLAB

В этом примере показано, как обучить сеть LSTM глубокого обучения для генерации текста с помощью вложений символов.

Генерация текста Word-By-Word с использованием глубокого обучения

В этом примере показано, как обучить сеть LSTM глубокого обучения генерировать текстовое слово за словом.

Классификация текстовых данных с помощью пользовательского цикла обучения

В этом примере показано, как классифицировать текстовые данные с помощью сети глубокого обучения с двунаправленной длинной краткосрочной памятью (BiLSTM) с помощью пользовательского цикла обучения.

Сгенерируйте текст с помощью автоэнкодеров

В этом примере показано, как сгенерировать текстовые данные с помощью автоэнкодеров.

Задайте функцию модели текстового энкодера

В этом примере показано, как задать функцию модели текстового энкодера.

Задайте функцию модели декодера текста

Этот пример показывает, как задать функцию модели декодера текста.