Моделирование и прогноз

Разработайте прогнозные модели с помощью моделей темы и вложений слова.

Найти кластеры и извлечение показывает от высоко-размерных текстовых наборов данных, можно использовать методы машинного обучения и модели, такие как LSA, LDA и вложения слова. Можно сочетать функции, созданные с Text Analytics Toolbox™ с функциями от других источников данных. С этими функциями можно создать модели машинного обучения, которые используют в своих интересах текстовые, числовые, и другие типы данных.

Функции

развернуть все

Моделирование темы и сокращение размерности

`fitlda`	Подходящая модель скрытого выделения Дирихле (LDA)
`fitlsa`	Подбирайте модель LSA
`resume`	Продолжите подбирать модель LDA
`logp`	Логарифмические вероятности документа и качество подгонки модели LDA
`predict`	Предскажите главные темы LDA документов
`transform`	Преобразуйте документы в более низкое мерное пространство
`ldaModel`	Модель Latent Dirichlet allocation (LDA)
`lsaModel`	Модель Latent semantic analysis (LSA)

Word и подсчет n-граммы

`bagOfWords`	Модель сумки слов
`bagOfNgrams`	Мешок n модели граммов
`addDocument`	Добавьте документы сумке слов или мешку n модели граммов
`removeDocument`	Удалите документы из сумки слов или мешка n модели граммов
`removeInfrequentWords`	Удалите слова с низкими количествами из модели сумки слов
`removeInfrequentNgrams`	Удалите нечасто замечаемые N-граммы из мешка n модели граммов
`removeWords`	Удалите выбранные слова из модели сумки слов или документов
`removeNgrams`	Удалите N-граммы из мешка n модели граммов
`removeEmptyDocuments`	Удалите пустые документы из маркируемого массива документа, модель сумки слов или мешок n модели граммов
`topkwords`	Большинство важных слов в модели сумки слов или теме LDA
`topkngrams`	Большинство частых N-грамм
`encode`	Закодируйте документы как матрицу количеств n-граммы или слова
`tfidf`	Назовите Обратную Частотой Частоту Документа (tf-idf) матрицей
`join`	Объедините несколько сумка слов или мешок n моделей граммов

Анализ мнений

`vaderSentimentScores`	Баллы чувства с алгоритмом VADER
`ratioSentimentScores`	Баллы чувства с правилом отношения

Word Embeddings и кодировка

`fastTextWordEmbedding`	Предварительно обученное fastText встраивание слова
`wordEncoding`	Модель кодирования Word, чтобы сопоставить слова с индексами и назад
`doc2sequence`	Преобразуйте документы последовательностям для глубокого обучения
`wordEmbeddingLayer`	Слой встраивания Word для нейронных сетей для глубокого обучения
`word2vec`	Сопоставьте слово со встраиванием вектора
`word2ind`	Сопоставьте слово с кодированием индекса
`vec2word`	Сопоставьте вектор встраивания со словом
`ind2word`	Сопоставьте индекс кодирования со словом
`isVocabularyWord`	Протестируйте, если слово является участником встраивания слова или кодирования
`readWordEmbedding`	Считайте встраивание слова из файла
`trainWordEmbedding`	Обучите встраивание слова
`writeWordEmbedding`	Запишите файл встраивания слова
`wordEmbedding`	Модель встраивания Word, чтобы сопоставить слова с векторами и назад

Визуализация

`wordcloud`	Создайте график облака слова из текста, модели сумки слов, мешка n модели граммов или модели LDA
`textscatter`	2D график рассеивания текста
`textscatter3`	3-D точечный график текста

Темы

Классификация текстов

Создайте простую текстовую модель для классификации

В этом примере показано, как обучить простой текстовый классификатор на количествах частотности слова с помощью модели сумки слов.

Классифицируйте текстовые данные Используя глубокое обучение

В этом примере показано, как классифицировать текстовые описания прогнозов погоды с помощью сети долгой краткосрочной памяти (LSTM) глубокого обучения.

Классифицируйте текстовые данные Используя сверточную нейронную сеть

В этом примере показано, как классифицировать текстовые данные с помощью сверточной нейронной сети.

Классифицируйте текстовые данные из памяти Используя глубокое обучение

В этом примере показано, как классифицировать текстовые данные из памяти с нейронной сетью для глубокого обучения с помощью преобразованного datastore.

Подсчет n-граммы и моделирование темы

Анализируйте текстовые данные Используя фразы многословные

В этом примере показано, как анализировать текст с помощью подсчета частот n-граммы.

Анализируйте текстовые данные Используя модели темы

В этом примере показано, как использовать модель темы Скрытого выделения Дирихле (LDA), чтобы анализировать текстовые данные.

Выберите Number of Topics for LDA Model

В этом примере показано, как выбрать подходящее количество тем для модели скрытого выделения Дирихле (LDA).

Сравните решатели LDA

В этом примере показано, как сравнить решатели скрытого выделения Дирихле (LDA) путем сравнения качества подгонки и время, потраченное, чтобы подбирать модель.

Анализ мнений

Анализируйте чувство в тексте

В этом примере показано, как использовать Валентность Осведомленный Словарь и чувство Reasoner (VADER) алгоритм для анализа мнений.

Обучите классификатор чувства

В этом примере показано, как обучить классификатор анализу мнений с помощью аннотируемого списка положительных и отрицательных слов чувства и предварительно обученного встраивания слова.

Перевод и текстовая генерация

Перевод от последовательности к последовательности Используя внимание

В этом примере показано, как преобразовать десятичные строки в Римские цифры с помощью модели декодера энкодера повторяющейся последовательности к последовательности с вниманием.

Сгенерируйте текст Используя глубокое обучение (Deep Learning Toolbox)

В этом примере показано, как обучить сеть долгой краткосрочной памяти (LSTM) глубокого обучения генерировать текст.

Гордитесь и нанесите ущерб и MATLAB

В этом примере показано, как обучить сеть LSTM глубокого обучения, чтобы сгенерировать текст с помощью символьных вложений.

Пословно текстовая генерация Используя глубокое обучение

В этом примере показано, как обучить сеть LSTM глубокого обучения, чтобы сгенерировать текст пословно.