Моделирование и предсказание

Разработайте прогнозные модели с помощью моделей темы и вложений слова

Найти кластеры и извлечение показывает от высоко-размерных текстовых наборов данных, можно использовать методы машинного обучения и модели, такие как LSA, LDA и вложения слова. Можно сочетать функции, созданные с Text Analytics Toolbox™ с функциями от других источников данных. С этими функциями можно создать модели машинного обучения, которые используют в своих интересах текстовые, числовые, и другие типы данных.

Функции

развернуть все

Word и подсчет n-граммы

`bagOfWords`	Модель сумки слов
`bagOfNgrams`	Мешок n модели граммов
`addDocument`	Добавьте документы сумке слов или мешку n модели граммов
`removeDocument`	Удалите документы из сумки слов или мешка n модели граммов
`removeInfrequentWords`	Удалите слова с низкими количествами из модели сумки слов
`removeInfrequentNgrams`	Удалите нечасто замечаемые N-граммы из мешка n модели граммов
`removeWords`	Удалите выбранные слова из модели сумки слов или документов
`removeNgrams`	Удалите N-граммы из мешка n модели граммов
`removeEmptyDocuments`	Удалите пустые документы из маркируемого массива документа, модель сумки слов или мешок n модели граммов
`topkwords`	Большинство важных слов в модели сумки слов или теме LDA
`topkngrams`	Большинство частых N-грамм
`encode`	Закодируйте документы как матрицу количеств n-граммы или слова
`tfidf`	Назовите Обратную Частотой Частоту Документа (tf-idf) матрицей
`join`	Объедините несколько сумка слов или мешок n моделей граммов

Анализ мнений

`vaderSentimentScores`	Баллы чувства с алгоритмом VADER
`ratioSentimentScores`	Баллы чувства с правилом отношения

Word Embeddings и кодировка

`fastTextWordEmbedding`	Предварительно обученное fastText встраивание слова
`wordEncoding`	Модель кодирования Word, чтобы сопоставить слова с индексами и назад
`doc2sequence`	Преобразуйте документы последовательностям для глубокого обучения
`wordEmbeddingLayer`	Слой встраивания Word для нейронных сетей для глубокого обучения
`word2vec`	Сопоставьте слово со встраиванием вектора
`word2ind`	Сопоставьте слово с кодированием индекса
`vec2word`	Сопоставьте вектор встраивания со словом
`ind2word`	Сопоставьте индекс кодирования со словом
`isVocabularyWord`	Протестируйте, если слово является членом встраивания слова или кодирования
`readWordEmbedding`	Считайте встраивание слова из файла
`trainWordEmbedding`	Обучите встраивание слова
`writeWordEmbedding`	Запишите файл встраивания слова
`wordEmbedding`	Модель встраивания Word, чтобы сопоставить слова с векторами и назад

Резюмирование документа и подобие

`extractSummary`	Извлеките сводные данные из документов
`rakeKeywords`	Извлеките ключевые слова с помощью RAKE
`textrankKeywords`	Извлеките использование ключевых слов TextRank
`bleuEvaluationScore`	Оцените перевод или резюмирование со счетом подобия BLEU
`rougeEvaluationScore`	Оцените перевод или резюмирование со счетом подобия ROUGE
`bm25Similarity`	Общие черты документа с алгоритмом BM25
`cosineSimilarity`	Общие черты документа с подобием косинуса
`textrankScores`	Документ, выигрывающий с алгоритмом TextRank
`lexrankScores`	Документ, выигрывающий с алгоритмом LexRank
`mmrScores`	Документ, выигрывающий с алгоритмом Максимальной крайней уместности (MMR)

Моделирование темы и сокращение размерности

`fitlda`	Подходящая модель скрытого выделения Дирихле (LDA)
`fitlsa`	Подбирайте модель LSA
`resume`	Продолжите подбирать модель LDA
`logp`	Логарифмические вероятности документа и качество подгонки модели LDA
`predict`	Предскажите главные темы LDA документов
`transform`	Преобразуйте документы в более низкое мерное пространство
`ldaModel`	Модель Latent Dirichlet allocation (LDA)
`lsaModel`	Модель Latent semantic analysis (LSA)

Визуализация

`wordcloud`	Создайте график облака слова из текста, модели сумки слов, мешка n модели граммов или модели LDA
`textscatter`	2D график рассеивания текста
`textscatter3`	3-D точечный график текста

Темы

Классификация и моделирование

Создайте простую функцию предварительной обработки

В этом примере показано, как создать функцию, которая чистит и предварительно обрабатывает текстовые данные для анализа.

Создайте простую текстовую модель для классификации

В этом примере показано, как обучить простой текстовый классификатор на количествах частотности слова с помощью модели сумки слов.

Анализируйте текстовые данные Используя фразы многословные

В этом примере показано, как анализировать текст с помощью подсчета частот n-граммы.

Анализируйте текстовые данные Используя модели темы

В этом примере показано, как использовать модель темы Скрытого выделения Дирихле (LDA), чтобы анализировать текстовые данные.

Выберите Number of Topics for LDA Model

В этом примере показано, как выбрать подходящее количество тем для модели скрытого выделения Дирихле (LDA).

Сравните решатели LDA

В этом примере показано, как сравнить решатели скрытого выделения Дирихле (LDA) путем сравнения качества подгонки и время, потраченное, чтобы подбирать модель.

Визуализируйте кластеры документа Используя модель LDA

В этом примере показано, как визуализировать кластеризацию документов с помощью модели темы Скрытого выделения Дирихле (LDA) и графика t-SNE.

Визуализируйте корреляции темы LDA

В этом примере показано, как анализировать корреляции между темами в модели темы Скрытого выделения Дирихле (LDA).

Визуализируйте корреляции между темами LDA и метками документа

В этом примере показано, как подбирать модель темы Скрытого выделения Дирихле (LDA) и визуализировать корреляции между темами LDA и метками документа.

Создайте сеть совместной встречаемости

В этом примере показано, как создать сеть совместной встречаемости использование модели сумки слов.

Анализ мнений и экстракция ключевого слова

Анализируйте чувство в тексте

В этом примере показано, как использовать Валентность Осведомленный Словарь и чувство Reasoner (VADER) алгоритм для анализа мнений.

Сгенерируйте зависящий от домена словарь чувства

В этом примере показано, как сгенерировать словарь для анализа мнений с помощью 10-K и 10-Q финансовых отчетов.

Обучите классификатор чувства

В этом примере показано, как обучить классификатор анализу мнений с помощью аннотируемого списка положительных и отрицательных слов чувства и предварительно обученного встраивания слова.

Извлеките ключевые слова из текстовых данных Используя RAKE

В этом примере показано, как извлечь ключевые слова из текстовых данных с помощью Быстрой автоматической экстракции ключевого слова (RAKE).

Извлеките ключевые слова из текстовых данных Используя TextRank

Этот пример показывает, чтобы извлечь ключевые слова из текстового использования данных TextRank.

Глубокое обучение

Классифицируйте текстовые данные Используя глубокое обучение

В этом примере показано, как классифицировать текстовые данные с помощью сети долгой краткосрочной памяти (LSTM) глубокого обучения.

Классифицируйте текстовые данные Используя сверточную нейронную сеть

В этом примере показано, как классифицировать текстовые данные с помощью сверточной нейронной сети.

Классифицируйте текстовые данные из памяти Используя глубокое обучение

В этом примере показано, как классифицировать текстовые данные из памяти с нейронной сетью для глубокого обучения с помощью преобразованного datastore.

Перевод от последовательности к последовательности Используя внимание

В этом примере показано, как преобразовать десятичные строки в Римские цифры с помощью модели декодера энкодера повторяющейся последовательности к последовательности с вниманием.

Классификация мультитекстов метки Используя глубокое обучение

В этом примере показано, как классифицировать текстовые данные, которые имеют несколько независимых меток.

Сгенерируйте текст Используя глубокое обучение (Deep Learning Toolbox)

В этом примере показано, как обучить сеть долгой краткосрочной памяти (LSTM) глубокого обучения генерировать текст.

Гордитесь и нанесите ущерб и MATLAB

В этом примере показано, как обучить сеть LSTM глубокого обучения, чтобы сгенерировать текст с помощью символьных вложений.

Пословно текстовая генерация Используя глубокое обучение

В этом примере показано, как обучить сеть LSTM глубокого обучения, чтобы сгенерировать текст пословно.

Классифицируйте текстовые данные Используя пользовательский учебный цикл

В этом примере показано, как классифицировать текстовые данные с помощью глубокого обучения двунаправленная длинная краткосрочная сеть (BiLSTM) памяти с пользовательским учебным циклом.

Сгенерируйте текст Используя автоэнкодеры

В этом примере показано, как сгенерировать текстовые данные с помощью автоэнкодеров.

Задайте текстовую функцию модели энкодера

В этом примере показано, как задать текстовую функцию модели энкодера.

Задайте текстовую функцию модели декодера

В этом примере показано, как задать текстовую функцию модели декодера.

Перевод языка Используя глубокое обучение

В этом примере показано, как обучить немца к английскому переводчику языка с помощью модели декодера энкодера повторяющейся последовательности к последовательности с вниманием.