Подготовка текстовых данных

Импортируйте текстовые данные в MATLAB® и предварительно обработайте его для анализа

Text Analytics Toolbox™ включает инструменты для обработки необработанного текста из источников, таких как журналы оборудования, ленты новостей, обзоры, отчеты оператора и социальные сети. Используйте эти инструменты, чтобы извлечь текст из популярных файловых форматов, предварительно обработать необработанный текст, извлечь отдельные слова или фразы многословные (N-граммы), преобразовать текст в числовые представления и статистические модели сборки. Для примера, показывающего, как начать, смотрите, Готовят текстовые Данные к Анализу.

Text Analytics Toolbox поддерживает Английский, Японский ,Немецкий и Корейский языки. Большинство функций Text Analytics Toolbox работает с текстом с других языков. Для получения дополнительной информации смотрите Факторы Языка.

Функции

развернуть все

extractFileTextСчитайте текст из PDF, Microsoft Word, HTML и файлов простого текста
extractHTMLTextИзвлеките текст из HTML
readPDFFormDataСчитайте данные из форм PDF
writeTextDocumentЗапишите документы текстовому файлу
htmlTreeПроанализированное дерево HTML
findElementНайдите элементы в дереве HTML
getAttributeСчитайте HTML-атрибут корневого узла дерева HTML
ismissingНайдите деревья HTML без значений
stringПреобразуйте проанализированное дерево HTML, чтобы представить в виде строки
tokenizedDocumentМассив маркируемых документов для текстового анализа
erasePunctuationСотрите пунктуацию из текста и документов
eraseTagsСотрите HTML-тэги и XML-тэги из текста
eraseURLsСотрите HTTP и URL HTTPS из текста
removeStopWordsУдалите слова остановки из документов
removeShortWordsУдалите короткие слова из модели сумки слов или документов
removeLongWordsУдалите длинные слова из модели сумки слов или документов
removeWordsУдалите выбранные слова из модели сумки слов или документов
normalizeWordsОпределите корень или лемматизируйте слова
replaceWordsЗамените слова в документах
replaceNgramsЗамените N-граммы в документах
stopWordsСписок слов остановки
decodeHTMLEntitiesПреобразуйте HTML и сущности XML в символы
lowerПреобразуйте документы нижнему регистру
upperПреобразуйте документы верхнему регистру
contextПоисковые документы для слова или случаев n-граммы в контексте
tokenDetailsДетали лексем в маркируемом массиве документа
addSentenceDetailsДобавьте числа предложения в документы
addPartOfSpeechDetailsДобавьте теги части речи в документы
addLemmaDetailsДобавьте формы леммы лексем к документам
addLanguageDetailsДобавьте идентификаторы языка в документы
addEntityDetailsДобавьте теги сущности в документы
addTypeDetailsДобавьте, что тип маркера назначает в документы
splitSentencesРазделите текст в предложения
corpusLanguageОбнаружьте язык текста
abbreviationsТаблица общих сокращений
topLevelDomainsСписок областей верхнего уровня
bagOfWordsМодель сумки слов
bagOfNgramsМешок n модели граммов
addDocumentДобавьте документы сумке слов или мешку n модели граммов
removeDocumentУдалите документы из сумки слов или мешка n модели граммов
removeInfrequentWordsУдалите слова с низкими количествами из модели сумки слов
removeInfrequentNgramsУдалите нечасто замечаемые N-граммы из мешка n модели граммов
removeNgramsУдалите N-граммы из мешка n модели граммов
removeEmptyDocumentsУдалите пустые документы из маркируемого массива документа, модель сумки слов или мешок n модели граммов
topkwordsБольшинство важных слов в модели сумки слов или теме LDA
topkngramsБольшинство частых N-грамм
encodeЗакодируйте документы как матрицу количеств n-граммы или слова
tfidfНазовите Обратную Частотой Частоту Документа (tf-idf) матрицей
joinОбъедините несколько сумка слов или мешок n моделей граммов
correctSpellingПравильное написание слов
editDistanceНайдите расстояние редактирования между двумя строками или документами
editDistanceSearcherОтредактируйте расстояние самый близкий соседний искатель
knnsearchНайдите самых близких соседей расстоянием редактирования
rangesearchНайдите самых близких соседей областью значений расстояния редактирования
splitGraphemesРазделите строку в графемы
docfunПримените функцию к словам в документах
plusДобавьте документы
replaceЗамените подстроки в документах
regexprepЗамените текст в словах документов с помощью регулярного выражения
doclengthДлина документов в массиве документа
doc2cellПреобразуйте документы массиву ячеек векторов строки
joinWordsПреобразуйте документы, чтобы представить в виде строки путем присоединения слов
stringПреобразуйте скалярный документ, чтобы представить вектор в виде строки
textanalytics.unicode.nfdUnicode анализировал нормированную форму (NFD)
UTF32Unicode строковое представление UTF-32
characterCategoriesКатегории символа Unicode
hexПреобразуйте представление UTF-32 шестнадцатеричным значениям
stringПреобразуйте представление UTF-32 строке

Темы

Импорт

Извлеките текстовые данные из файлов

В этом примере показано, как извлечь текстовые данные из текста, HTML, Microsoft® Word, PDF, CSV и файлы Microsoft Excel® и импортировать его в MATLAB® для анализа.

Проанализируйте HTML и извлеките текстовое содержимое

В этом примере показано, как проанализировать код HTML и извлечь текстовое содержимое из конкретных элементов.

Наборы данных для текстовой аналитики

Узнайте наборы данных для различных текстовых задач аналитики.

Предварительная обработка

Подготовьте текстовые данные к анализу

В этом примере показано, как создать функцию, которая чистит и предварительно обрабатывает текстовые данные для анализа.

Анализируйте текстовые данные, содержащие эмодзи

В этом примере показано, как анализировать текстовые данные, содержащие эмодзи.

Правильное написание в документах

В этом примере показано, как откорректировать написание в использовании документов Hunspell.

Создайте дополнительный словарь для исправления орфографических ошибок

В этом примере показано, как создать словарь расширения Hunspell для исправления орфографических ошибок.

Создайте пользовательскую функцию исправления орфографических ошибок Используя искателей расстояния редактирования

В этом примере показано, как откорректировать написание с помощью искателей расстояния редактирования и словаря известных слов.

Поддержка языка

Факторы языка

Информация об использовании функций Text Analytics Toolbox для других языков.

Японская поддержка языка

Информация о японской поддержке в Text Analytics Toolbox.

Анализируйте японские текстовые данные

В этом примере показано, как импортировать, подготовьтесь и анализируйте японские текстовые данные с помощью модели темы.

Немецкая поддержка языка

Информация о немецкой поддержке в Text Analytics Toolbox.

Анализируйте немецкие текстовые данные

В этом примере показано, как импортировать, подготовьтесь и анализируйте немецкие текстовые данные с помощью модели темы.

Рекомендуемые примеры