exponenta event banner

Подготовка текстовых данных

Импорт текстовых данных в MATLAB ® и предварительная обработка их для анализа

Text Analytics Toolbox™ включает инструменты для обработки необработанного текста из таких источников, как журналы оборудования, новостные ленты, опросы, отчеты операторов и социальные сети. Эти инструменты используются для извлечения текста из популярных форматов файлов, предварительной обработки исходного текста, извлечения отдельных слов или многословных фраз (n-grams), преобразования текста в числовые представления и построения статистических моделей. Пример начала работы см. в разделе Подготовка текстовых данных к анализу.

Модуль Text Analytics Toolbox поддерживает языки английский, японский, немецкий и корейский. Большинство функций панели инструментов Text Analytics работают с текстом из других языков. Дополнительные сведения см. в разделе Вопросы языка.

Функции

развернуть все

extractFileTextЧтение текста из файлов PDF, Microsoft Word, HTML и обычного текста
extractHTMLTextИзвлечение текста из HTML
readPDFFormDataЧтение данных из PDF-форм
writeTextDocumentЗапись документов в текстовый файл
htmlTreeПроанализированное HTML-дерево
findElementПоиск элементов в дереве HTML
getAttributeСчитывание атрибута HTML корневого узла дерева HTML
ismissingПоиск HTML-деревьев без значений
stringПреобразование проанализированного HTML-дерева в строку
tokenizedDocumentМассив маркированных документов для текстового анализа
erasePunctuationУдаление знаков препинания из текста и документов
eraseTagsУдаление тегов HTML и XML из текста
eraseURLsУдаление URL-адресов HTTP и HTTPS из текста
removeStopWordsУдалить слова остановки из документов
removeShortWordsУдалить короткие слова из документов или модели мешка слов
removeLongWordsУдаление длинных слов из документов или модели мешка слов
removeWordsУдалить выбранные слова из документов или модели мешка слов
normalizeWordsСтебельные или лемматизированные слова
replaceWordsЗаменить слова в документах
replaceNgramsЗаменить n-грамм в документах
stopWordsСписок стоп-слов
decodeHTMLEntitiesПреобразование объектов HTML и XML в символы
lowerПреобразование документов в нижний регистр
upperПреобразовать документы в верхний регистр
contextПоиск в документах вхождений word или n-gram в контексте
tokenDetailsСведения о маркерах в маркированном массиве документов
addSentenceDetailsДобавление номеров предложений в документы
addPartOfSpeechDetailsДобавление тегов части речи в документы
addLemmaDetailsДобавление форм леммы токенов в документы
addLanguageDetailsДобавление идентификаторов языка в документы
addEntityDetailsДобавление тегов объектов в документы
addTypeDetailsДобавить сведения о типе маркера в документы
splitSentencesРазбить текст на предложения
corpusLanguageОпределение языка текста
abbreviationsТаблица общих сокращений
topLevelDomainsСписок доменов верхнего уровня
bagOfWordsМодель сумки слов
bagOfNgramsМодель мешка n-граммов
addDocumentДобавление документов в модель «мешок слов» или «мешок n-грамм»
removeDocumentУдалить документы из модели мешка слов или мешка n граммов
removeInfrequentWordsУдалить слова с низкими счетчиками из модели сумки слов
removeInfrequentNgramsУдаление редко встречающихся n-грамм из модели мешков n-грамм
removeNgramsУдалить n-грамм из модели мешков n-грамм
removeEmptyDocumentsУдаление пустых документов из маркированного массива документов, модели мешка слов или модели мешка n грамм
topkwordsНаиболее важные слова в сумке слов модели или темы LDA
topkngramsНаиболее часто n-грамм
encodeКодировать документы как матрицу числа слов или n-граммов
tfidfМатрица Term Frequency-Inverse Document Frequency (tf-idf)
joinОбъединение нескольких моделей мешков слов или мешков n граммов
correctSpellingПравильное написание слов
editDistanceПоиск расстояния между двумя строками или документами
editDistanceSearcherИзменить расстояние до ближайшего соседнего поискового устройства
knnsearchПоиск ближайших соседей по расстоянию редактирования
rangesearchПоиск ближайших соседей по диапазону расстояния редактирования
splitGraphemesРазбить строку на графемы
docfunПрименение функции к словам в документах
plusДобавление документов
replaceЗаменить подстроки в документах
regexprepЗаменить текст словами документов с использованием регулярного выражения
doclengthДлина документов в массиве документов
doc2cellПреобразование документов в массив ячеек векторов строк
joinWordsПреобразование документов в строку путем присоединения слов
stringПреобразование скалярного документа в строковый вектор
textanalytics.unicode.nfdДекомпозиционная нормализованная форма Юникода (NFD)
UTF32Строковое представление Unicode UTF-32
characterCategoriesКатегории символов Юникода
hexПреобразование UTF-32 представления в шестнадцатеричные значения
stringПреобразование представления UTF-32 в строку

Темы

Импорт

Извлечение текстовых данных из файлов

В этом примере показано, как извлечь текстовые данные из текстовых файлов, HTML, Microsoft ® Word, PDF, CSV и Microsoft Excel ® и импортировать их в MATLAB ® для анализа.

Анализ HTML и извлечение текстового содержимого

В этом примере показано, как анализировать HTML-код и извлекать текстовое содержимое из определенных элементов.

Наборы данных для анализа текста

Обнаружение наборов данных для различных задач анализа текста.

Предварительная обработка

Подготовка текстовых данных для анализа

В этом примере показано, как создать функцию очистки и предварительной обработки текстовых данных для анализа.

Анализ текстовых данных, содержащих эмодзи

В этом примере показано, как анализировать текстовые данные, содержащие эмодзи.

Правильное написание в документах

В этом примере показано, как исправить орфографию в документах с помощью Hunspell.

Создание дополнительного словаря для исправления орфографии

В этом примере показано, как создать словарь расширения Hunspell для исправления орфографии.

Создание пользовательской функции исправления орфографии с помощью функции «Редактировать поисковики расстояний»

В этом примере показано, как исправить орфографию с помощью средств поиска расстояния редактирования и словаря известных слов.

Языковая поддержка

Языковые соображения

Сведения об использовании инструментов Text Analytics Toolbox для других языков.

Поддержка японского языка

Информация о поддержке на японском языке в инструментарии Text Analytics Toolbox.

Анализ текстовых данных на японском языке

В этом примере показано, как импортировать, подготовить и проанализировать японские текстовые данные с использованием тематической модели.

Поддержка немецкого языка

Информация о поддержке на немецком языке в инструментарии Text Analytics Toolbox.

Анализ текстовых данных на немецком языке

В этом примере показано, как импортировать, подготовить и проанализировать текстовые данные на немецком языке с использованием тематической модели.

Характерные примеры