Моделирование и предсказание

Разработайте прогнозные модели с помощью моделей темы и вложений слова

Найти кластеры и извлечение показывает от высоко-размерных текстовых наборов данных, можно использовать методы машинного обучения и модели, такие как LSA, LDA и вложения слова. Можно сочетать функции, созданные с Text Analytics Toolbox™ с функциями от других источников данных. С этими функциями можно создать модели машинного обучения, которые используют в своих интересах текстовые, числовые, и другие типы данных.

Функции

развернуть все

bagOfWordsМодель сумки слов
bagOfNgramsМешок n модели граммов
addDocumentДобавьте документы сумке слов или мешку n модели граммов
removeDocumentУдалите документы из сумки слов или мешка n модели граммов
removeInfrequentWordsУдалите слова с низкими количествами из модели сумки слов
removeInfrequentNgramsУдалите нечасто замечаемые N-граммы из мешка n модели граммов
removeWordsУдалите выбранные слова из модели сумки слов или документов
removeNgramsУдалите N-граммы из мешка n модели граммов
removeEmptyDocumentsУдалите пустые документы из маркируемого массива документа, модель сумки слов или мешок n модели граммов
topkwordsБольшинство важных слов в модели сумки слов или теме LDA
topkngramsБольшинство частых N-грамм
encodeЗакодируйте документы как матрицу количеств n-граммы или слова
tfidfНазовите Обратную Частотой Частоту Документа (tf-idf) матрицей
joinОбъедините несколько сумка слов или мешок n моделей граммов
vaderSentimentScoresБаллы чувства с алгоритмом VADER
ratioSentimentScoresБаллы чувства с правилом отношения
fastTextWordEmbeddingПредварительно обученное fastText встраивание слова
wordEncodingМодель кодирования Word, чтобы сопоставить слова с индексами и назад
doc2sequenceПреобразуйте документы последовательностям для глубокого обучения
wordEmbeddingLayerСлой встраивания Word для нейронных сетей для глубокого обучения
word2vecСопоставьте слово со встраиванием вектора
word2indСопоставьте слово с кодированием индекса
vec2wordСопоставьте вектор встраивания со словом
ind2wordСопоставьте индекс кодирования со словом
isVocabularyWordПротестируйте, если слово является членом встраивания слова или кодирования
readWordEmbeddingСчитайте встраивание слова из файла
trainWordEmbeddingОбучите встраивание слова
writeWordEmbeddingЗапишите файл встраивания слова
wordEmbeddingМодель встраивания Word, чтобы сопоставить слова с векторами и назад
extractSummaryИзвлеките сводные данные из документов
rakeKeywordsИзвлеките ключевые слова с помощью RAKE
textrankKeywordsИзвлеките использование ключевых слов TextRank
bleuEvaluationScoreОцените перевод или резюмирование со счетом подобия BLEU
rougeEvaluationScoreОцените перевод или резюмирование со счетом подобия ROUGE
bm25SimilarityОбщие черты документа с алгоритмом BM25
cosineSimilarityОбщие черты документа с подобием косинуса
textrankScoresДокумент, выигрывающий с алгоритмом TextRank
lexrankScoresДокумент, выигрывающий с алгоритмом LexRank
mmrScoresДокумент, выигрывающий с алгоритмом Максимальной крайней уместности (MMR)
fitldaПодходящая модель скрытого выделения Дирихле (LDA)
fitlsaПодбирайте модель LSA
resumeПродолжите подбирать модель LDA
logpЛогарифмические вероятности документа и качество подгонки модели LDA
predictПредскажите главные темы LDA документов
transformПреобразуйте документы в более низкое мерное пространство
ldaModelМодель Latent Dirichlet allocation (LDA)
lsaModelМодель Latent semantic analysis (LSA)
wordcloudСоздайте график облака слова из текста, модели сумки слов, мешка n модели граммов или модели LDA
textscatter2D график рассеивания текста
textscatter33-D точечный график текста

Темы

Классификация и моделирование

Создайте простую функцию предварительной обработки

В этом примере показано, как создать функцию, которая чистит и предварительно обрабатывает текстовые данные для анализа.

Создайте простую текстовую модель для классификации

В этом примере показано, как обучить простой текстовый классификатор на количествах частотности слова с помощью модели сумки слов.

Анализируйте текстовые данные Используя фразы многословные

В этом примере показано, как анализировать текст с помощью подсчета частот n-граммы.

Анализируйте текстовые данные Используя модели темы

В этом примере показано, как использовать модель темы Скрытого выделения Дирихле (LDA), чтобы анализировать текстовые данные.

Выберите Number of Topics for LDA Model

В этом примере показано, как выбрать подходящее количество тем для модели скрытого выделения Дирихле (LDA).

Сравните решатели LDA

В этом примере показано, как сравнить решатели скрытого выделения Дирихле (LDA) путем сравнения качества подгонки и время, потраченное, чтобы подбирать модель.

Анализ мнений и экстракция ключевого слова

Анализируйте чувство в тексте

В этом примере показано, как использовать Валентность Осведомленный Словарь и чувство Reasoner (VADER) алгоритм для анализа мнений.

Сгенерируйте зависящий от домена словарь чувства

В этом примере показано, как сгенерировать словарь для анализа мнений с помощью 10-K и 10-Q финансовых отчетов.

Обучите классификатор чувства

В этом примере показано, как обучить классификатор анализу мнений с помощью аннотируемого списка положительных и отрицательных слов чувства и предварительно обученного встраивания слова.

Извлеките ключевые слова из текстовых данных Используя RAKE

В этом примере показано, как извлечь ключевые слова из текстовых данных с помощью Быстрой автоматической экстракции ключевого слова (RAKE).

Извлеките ключевые слова из текстовых данных Используя TextRank

Этот пример показывает, чтобы извлечь ключевые слова из текстового использования данных TextRank.

Глубокое обучение

Классифицируйте текстовые данные Используя глубокое обучение

В этом примере показано, как классифицировать текстовые данные с помощью сети долгой краткосрочной памяти (LSTM) глубокого обучения.

Классифицируйте текстовые данные Используя сверточную нейронную сеть

В этом примере показано, как классифицировать текстовые данные с помощью сверточной нейронной сети.

Классифицируйте текстовые данные из памяти Используя глубокое обучение

В этом примере показано, как классифицировать текстовые данные из памяти с нейронной сетью для глубокого обучения с помощью преобразованного datastore.

Перевод от последовательности к последовательности Используя внимание

В этом примере показано, как преобразовать десятичные строки в Римские цифры с помощью модели декодера энкодера повторяющейся последовательности к последовательности с вниманием.

Сгенерируйте текст Используя глубокое обучение (Deep Learning Toolbox)

В этом примере показано, как обучить сеть долгой краткосрочной памяти (LSTM) глубокого обучения генерировать текст.

Гордитесь и нанесите ущерб и MATLAB

В этом примере показано, как обучить сеть LSTM глубокого обучения, чтобы сгенерировать текст с помощью символьных вложений.

Пословно текстовая генерация Используя глубокое обучение

В этом примере показано, как обучить сеть LSTM глубокого обучения, чтобы сгенерировать текст пословно.

Классифицируйте текстовые данные Используя пользовательский учебный цикл

В этом примере показано, как классифицировать текстовые данные с помощью глубокого обучения двунаправленная длинная краткосрочная сеть (BiLSTM) памяти с пользовательским учебным циклом.

Сгенерируйте текст Используя автоэнкодеры

В этом примере показано, как сгенерировать текстовые данные с помощью автоэнкодеров.

Задайте текстовую функцию модели энкодера

В этом примере показано, как задать текстовую функцию модели энкодера.

Задайте текстовую функцию модели декодера

В этом примере показано, как задать текстовую функцию модели декодера.

Поддержка языка

Факторы языка

Информация об использовании функций Text Analytics Toolbox для других языков.

Японская поддержка языка

Информация о японской поддержке в Text Analytics Toolbox.

Анализируйте японские текстовые данные

В этом примере показано, как импортировать, подготовьтесь и анализируйте японские текстовые данные с помощью модели темы.

Немецкая поддержка языка

Информация о немецкой поддержке в Text Analytics Toolbox.

Анализируйте немецкие текстовые данные

В этом примере показано, как импортировать, подготовьтесь и анализируйте немецкие текстовые данные с помощью модели темы.

Рекомендуемые примеры