Подготовка текстовых данных

Импортируйте текстовые данные в MATLAB®and, предварительно обрабатывают его для анализа.

Text Analytics Toolbox™ включает инструменты для обработки необработанного текста из источников, таких как журналы оборудования, ленты новостей, обзоры, отчеты оператора и социальные сети. Используйте эти инструменты, чтобы извлечь текст из популярных файловых форматов, предварительно обработать необработанный текст, извлечь отдельные слова или фразы многословные (N-граммы), преобразовать текст в числовые представления и статистические модели сборки. Для примера, показывающего, как начать, смотрите, Готовят текстовые Данные к Анализу.

Text Analytics Toolbox поддерживает Английский, Японский ,Немецкий и Корейский языки. Большинство функций Text Analytics Toolbox работает с текстом с других языков. Для получения дополнительной информации смотрите Факторы Языка.

Функции

развернуть все

extractFileTextСчитайте текст из PDF, Microsoft Word, HTML и файлов простого текста
extractHTMLTextИзвлеките текст из HTML
readPDFFormDataСчитайте данные из форм PDF
writeTextDocumentЗапишите документы текстовому файлу
htmlTreeПроанализированное дерево HTML
findElementНайдите элементы в дереве HTML
getAttributeСчитайте HTML-атрибут корневого узла дерева HTML
ismissingНайдите деревья HTML без значений
tokenizedDocumentМассив маркируемых документов для текстового анализа
erasePunctuationСотрите пунктуацию из текста и документов
eraseTagsСотрите HTML-тэги и XML-тэги из текста
eraseURLsСотрите HTTP и URL HTTPS из текста
removeStopWordsУдалите слова остановки из документов
removeShortWordsУдалите короткие слова из модели сумки слов или документов
removeLongWordsУдалите длинные слова из модели сумки слов или документов
removeWordsУдалите выбранные слова из модели сумки слов или документов
normalizeWordsПроисходите или lemmatize слова
replaceWordsЗамените слова в документах
replaceNgramsЗамените N-граммы в документах
stopWordsСписок слов остановки
decodeHTMLEntitiesПреобразуйте HTML и сущности XML в символы
lowerПреобразуйте документы нижнему регистру
upperПреобразуйте документы верхнему регистру
contextПоисковые документы для слова или случаев n-граммы в контексте
tokenDetailsДетали лексем в маркируемом массиве документа
addSentenceDetailsДобавьте числа предложения в документы
addPartOfSpeechDetailsДобавьте теги части речи в документы
addLemmaDetailsДобавьте формы леммы лексем к документам
addLanguageDetailsДобавьте идентификаторы языка в документы
addEntityDetailsДобавьте теги сущности в документы
addTypeDetailsДобавьте, что тип маркера назначает в документы
splitSentencesРазделите текст в предложения
corpusLanguageОбнаружьте язык текста
abbreviationsТаблица общих сокращений
topLevelDomainsСписок областей верхнего уровня
bagOfWordsМодель сумки слов
bagOfNgramsМешок n модели граммов
addDocumentДобавьте документы сумке слов или мешку n модели граммов
removeDocumentУдалите документы из сумки слов или мешка n модели граммов
removeInfrequentWordsУдалите слова с низкими количествами из модели сумки слов
removeInfrequentNgramsУдалите нечасто замечаемые N-граммы из мешка n модели граммов
removeNgramsУдалите N-граммы из мешка n модели граммов
removeEmptyDocumentsУдалите пустые документы из маркируемого массива документа, модель сумки слов или мешок n модели граммов
topkwordsБольшинство важных слов в модели сумки слов или теме LDA
topkngramsБольшинство частых N-грамм
encodeЗакодируйте документы как матрицу количеств n-граммы или слова
tfidfНазовите Обратную Частотой Частоту Документа (tf-idf) матрицей
joinОбъедините несколько сумка слов или мешок n моделей граммов
editDistanceНайдите расстояние редактирования между двумя строками или документами
editDistanceSearcherОтредактируйте расстояние самый близкий соседний искатель
knnsearchНайдите самых близких соседей расстоянием редактирования
rangesearchНайдите самых близких соседей областью значений расстояния редактирования
splitGraphemesРазделите строку в графемы
docfunПримените функцию к словам в документах
plusДобавьте документы
replaceЗамените подстроки в документах
regexprepЗамените текст в словах документов с помощью регулярного выражения
doclengthДлина документов в массиве документа
doc2cellПреобразуйте документы массиву ячеек векторов строки
joinWordsПреобразуйте документы, чтобы представить в виде строки путем присоединения слов
stringПреобразуйте скалярный документ, чтобы представить вектор в виде строки

Темы

Импорт

Извлеките текстовые данные из файлов

В этом примере показано, как извлечь текстовые данные из текста, HTML, Microsoft® Word, PDF, CSV и файлы Microsoft Excel® и импортировать его в MATLAB® для анализа.

Проанализируйте HTML и извлеките текстовое содержимое

В этом примере показано, как проанализировать код HTML и извлечь текстовое содержимое из конкретных элементов.

Предварительная обработка

Подготовьте текстовые данные к анализу

В этом примере показано, как создать функцию, которая чистит и предварительно обрабатывает текстовые данные для анализа.

Анализируйте текстовые данные, содержащие эмодзи

В этом примере показано, как анализировать текстовые данные, содержащие эмодзи.

Правильное написание Используя искателей расстояния редактирования

В этом примере показано, как откорректировать написание с помощью искателей расстояния редактирования и словаря известных слов.

Поддержка языка

Факторы языка

Информация об использовании функций Text Analytics Toolbox для других языков.

Японская поддержка языка

Информация о японской поддержке в Text Analytics Toolbox.

Анализируйте японские текстовые данные

В этом примере показано, как импортировать, подготовьтесь и анализируйте японские текстовые данные с помощью модели темы.

Немецкая поддержка языка

Информация о немецкой поддержке в Text Analytics Toolbox.

Анализируйте немецкие текстовые данные

В этом примере показано, как импортировать, подготовьтесь и анализируйте немецкие текстовые данные с помощью модели темы.

Рекомендуемые примеры

Для просмотра документации необходимо авторизоваться на сайте