Подготовка текстовых данных

Импорт текстовых данных в MATLAB® и предварительно обработать его для анализа

Text Analytics Toolbox™ включает инструменты для обработки необработанного текста из источников, таких как журналы оборудования, ленты новостей, опросы, отчеты операторов и социальные сети. Используйте эти инструменты, чтобы извлечь текст из популярных файловых форматов, предварительно обработать необработанный текст, извлечь отдельные слова или многословные фразы (n-граммы), преобразовать текст в числовые представления и создать статистические модели. Пример, показывающий начало работы, см. в разделе Подготовка текстовых данных к анализу.

Symbolic Math Toolbox поддерживает английский, японский, немецкий и корейский языки. Большинство функций Symbolic Math Toolbox работают с текстом из других языков. Дополнительные сведения см. в разделе Языковые факторы.

Функции

расширить все

extractFileTextЧтение текста из PDF, Microsoft Word, HTML и простых текстовых файлов
extractHTMLTextИзвлечение текста из HTML
readPDFFormDataЧтение данных из PDF
writeTextDocumentЗапись документов в текстовый файл
htmlTreeСинтаксический HTML
findElementПоиск элементов в HTML
getAttributeЧтение HTML корневого узла HTML
ismissingПоиск HTML без значений
stringПреобразование синтаксического HTML в строку
tokenizedDocumentМассив токенизированных документов для анализа текста
erasePunctuationУдалите пунктуацию из текста и документов
eraseTagsСтереть HTML и XML теги из текста
eraseURLsУдалите URL-адреса HTTP и HTTPS из текста
removeStopWordsУдалите стоповые слова из документов
removeShortWordsУдалите короткие слова из документов или модели мешка слов
removeLongWordsУдалите длинные слова из документов или модели мешка слов
removeWordsУдалите выбранные слова из документов или модели мешка слов
normalizeWordsОпределите корень или лемматизируйте слова
replaceWordsЗаменить слова в документах
replaceNgramsЗамените n-граммы в документах
stopWordsСписок стоповых слов
decodeHTMLEntitiesПреобразуйте HTML и XML сущностей в символы
lowerПреобразование документов в строчные
upperПреобразование документов в заглавные
contextПоиск документов по вхождениям слов или n-граммов в контексте
tokenDetailsДетали лексем в токенизированном массиве документов
addSentenceDetailsДобавьте номера предложений к документам
addPartOfSpeechDetailsДобавление тегов части речи к документам
addLemmaDetailsДобавьте лемма-формы лексем к документам
addLanguageDetailsДобавление идентификаторов языков к документам
addEntityDetailsДобавление тегов сущностей к документам
addTypeDetailsДобавление сведений о типах лексем в документы
splitSentencesРазделите текст на предложения
corpusLanguageОбнаружение языка текста
abbreviationsТаблица простых сокращений
topLevelDomainsСписок областей верхнего уровня
bagOfWordsМодель мешка слов
bagOfNgramsМодель мешка n-граммов
addDocumentДобавьте документы в модель мешка слов или мешка n-граммов
removeDocumentУдалите документы из модели мешка слов или мешка n-граммов
removeInfrequentWordsУдалите слова с низким количеством из модели мешка слов
removeInfrequentNgramsУдалите нечасто замеченные n-граммы из модели мешка n-граммов
removeNgramsУдалите n-граммы из модели мешка n-граммов
removeEmptyDocumentsУдалите пустые документы из токенизированного массива документов, модели мешка слов или модели мешка n-граммов
topkwordsСамые важные слова в модели мешка слов или теме LDA
topkngramsНаиболее частые n-граммы
encodeЗакодируйте документы как матрицу счетчиков слов или n-граммов
tfidfTerm Frequency-Inverse Document Frequency (tf-idf) матрица
joinОбъедините несколько моделей мешка слов или мешка n-граммов
correctSpellingПравильное написание слов
editDistanceНайдите расстояние между двумя строками или документами
editDistanceSearcherОтредактируйте расстояние ближайшего соседа искателя
knnsearchНайти ближайших соседей по расстоянию редактирования
rangesearchНайти ближайших соседей по области значений расстояний редактирования
splitGraphemesРазделите строку на графемы
docfunПрименить функцию к словам в документах
plusДобавление документов
replaceЗамените подстроки в документах
regexprepЗамените текст в словах документов с помощью регулярного выражения
doclengthДлина документов в массиве документов
doc2cellПреобразуйте документы в массив ячеек из строковых векторов
joinWordsПреобразование документов в строки путем соединения слов
stringПреобразуйте скалярный документ в строковый вектор
textanalytics.unicode.nfdРазложенная нормированная форма (NFD) Юникода
UTF32Юникод UTF-32 строковое представление
characterCategoriesКатегории символов Юникод
hexПреобразуйте UTF-32 представление в шестнадцатеричные значения
stringПреобразуйте UTF-32 представление в строковое

Темы

Импорт

Извлечение текстовых данных из файлов

В этом примере показано, как извлечь текстовые данные из файлов text, HTML, Microsoft ® Word, PDF, CSV и Microsoft Excel ® и импортировать их в MATLAB ® для анализа.

Синтаксический анализ HTML и извлечение текстового содержимого

В этом примере показов, как проанализировать HTML кода и извлечь текстовое содержимое из конкретных элементов.

Наборы данных для текстовой аналитики

Обнаружение наборов данных для различных задач текстовой аналитики.

Предварительная обработка

Подготовка текстовых данных к анализу

В этом примере показано, как создать функцию, которая очищает и предварительно обрабатывает текстовые данные для анализа.

Анализируйте текстовые данные, содержащие Emojis

Этот пример показывает, как анализировать текстовые данные, содержащие emojis.

Правильная орфография в документах

В этом примере показано, как исправить орфографию в документах с помощью Hunspell.

Создайте словарь расширений для коррекции орфографии

В этом примере показано, как создать словарь расширений Hunspell для коррекции орфографии.

Создайте пользовательскую функцию коррекции орфографии с помощью Edit Distance Searchers

Этот пример показывает, как исправить орфографию, используя искатели расстояния редактирования и словарь известных слов.

Языковая поддержка

Языковые факторы

Сведения об использовании функций Symbolic Math Toolbox для других языков.

Поддержка японского языка

Информация о поддержке японского языка в Symbolic Math Toolbox.

Анализируйте японские текстовые данные

В этом примере показано, как импортировать, подготовить и проанализировать японские текстовые данные с помощью модели темы.

Поддержка немецкого языка

Информация о поддержке немецкого языка в Symbolic Math Toolbox.

Анализ текстовых данных на немецком языке

В этом примере показано, как импортировать, подготовить и проанализировать текстовые данные на немецком языке с помощью модели темы.

Рекомендуемые примеры