Подготовка текстовых данных

Импорт текстовых данных в MATLAB ® и предварительная обработка их для анализа

Text Analytics Toolbox™ включает инструменты для обработки необработанного текста из таких источников, как журналы оборудования, новостные ленты, опросы, отчеты операторов и социальные сети. Эти инструменты используются для извлечения текста из популярных форматов файлов, предварительной обработки исходного текста, извлечения отдельных слов или многословных фраз (n-grams), преобразования текста в числовые представления и построения статистических моделей. Пример начала работы см. в разделе Подготовка текстовых данных к анализу.

Модуль Text Analytics Toolbox поддерживает языки английский, японский, немецкий и корейский. Большинство функций панели инструментов Text Analytics работают с текстом из других языков. Дополнительные сведения см. в разделе Вопросы языка.

Функции

развернуть все

Импорт и экспорт

`extractFileText`	Чтение текста из файлов PDF, Microsoft Word, HTML и обычного текста
`extractHTMLText`	Извлечение текста из HTML
`readPDFFormData`	Чтение данных из PDF-форм
`writeTextDocument`	Запись документов в текстовый файл

Синтаксический анализ HTML

`htmlTree`	Проанализированное HTML-дерево
`findElement`	Поиск элементов в дереве HTML
`getAttribute`	Считывание атрибута HTML корневого узла дерева HTML
`ismissing`	Поиск HTML-деревьев без значений
`string`	Преобразование проанализированного HTML-дерева в строку

Предварительная обработка документов

`tokenizedDocument`	Массив маркированных документов для текстового анализа
`erasePunctuation`	Удаление знаков препинания из текста и документов
`eraseTags`	Удаление тегов HTML и XML из текста
`eraseURLs`	Удаление URL-адресов HTTP и HTTPS из текста
`removeStopWords`	Удалить слова остановки из документов
`removeShortWords`	Удалить короткие слова из документов или модели мешка слов
`removeLongWords`	Удаление длинных слов из документов или модели мешка слов
`removeWords`	Удалить выбранные слова из документов или модели мешка слов
`normalizeWords`	Стебельные или лемматизированные слова
`replaceWords`	Заменить слова в документах
`replaceNgrams`	Заменить n-грамм в документах
`stopWords`	Список стоп-слов
`decodeHTMLEntities`	Преобразование объектов HTML и XML в символы
`lower`	Преобразование документов в нижний регистр
`upper`	Преобразовать документы в верхний регистр

Сведения о маркере

`context`	Поиск в документах вхождений word или n-gram в контексте
`tokenDetails`	Сведения о маркерах в маркированном массиве документов
`addSentenceDetails`	Добавление номеров предложений в документы
`addPartOfSpeechDetails`	Добавление тегов части речи в документы
`addLemmaDetails`	Добавление форм леммы токенов в документы
`addLanguageDetails`	Добавление идентификаторов языка в документы
`addEntityDetails`	Добавление тегов объектов в документы
`addTypeDetails`	Добавить сведения о типе маркера в документы
`splitSentences`	Разбить текст на предложения
`corpusLanguage`	Определение языка текста
`abbreviations`	Таблица общих сокращений
`topLevelDomains`	Список доменов верхнего уровня

Подсчет слов и N-граммов

`bagOfWords`	Модель сумки слов
`bagOfNgrams`	Модель мешка n-граммов
`addDocument`	Добавление документов в модель «мешок слов» или «мешок n-грамм»
`removeDocument`	Удалить документы из модели мешка слов или мешка n граммов
`removeInfrequentWords`	Удалить слова с низкими счетчиками из модели сумки слов
`removeInfrequentNgrams`	Удаление редко встречающихся n-грамм из модели мешков n-грамм
`removeNgrams`	Удалить n-грамм из модели мешков n-грамм
`removeEmptyDocuments`	Удаление пустых документов из маркированного массива документов, модели мешка слов или модели мешка n грамм
`topkwords`	Наиболее важные слова в сумке слов модели или темы LDA
`topkngrams`	Наиболее часто n-грамм
`encode`	Кодировать документы как матрицу числа слов или n-граммов
`tfidf`	Матрица Term Frequency-Inverse Document Frequency (tf-idf)
`join`	Объединение нескольких моделей мешков слов или мешков n граммов

Исправление орфографии и изменение расстояния

`correctSpelling`	Правильное написание слов
`editDistance`	Поиск расстояния между двумя строками или документами
`editDistanceSearcher`	Изменить расстояние до ближайшего соседнего поискового устройства
`knnsearch`	Поиск ближайших соседей по расстоянию редактирования
`rangesearch`	Поиск ближайших соседей по диапазону расстояния редактирования
`splitGraphemes`	Разбить строку на графемы

Обработка и преобразование документов

`docfun`	Применение функции к словам в документах
`plus`	Добавление документов
`replace`	Заменить подстроки в документах
`regexprep`	Заменить текст словами документов с использованием регулярного выражения
`doclength`	Длина документов в массиве документов
`doc2cell`	Преобразование документов в массив ячеек векторов строк
`joinWords`	Преобразование документов в строку путем присоединения слов
`string`	Преобразование скалярного документа в строковый вектор

Unicode

`textanalytics.unicode.nfd`	Декомпозиционная нормализованная форма Юникода (NFD)
`UTF32`	Строковое представление Unicode UTF-32
`characterCategories`	Категории символов Юникода
`hex`	Преобразование UTF-32 представления в шестнадцатеричные значения
`string`	Преобразование представления UTF-32 в строку

Темы

Импорт

Извлечение текстовых данных из файлов

В этом примере показано, как извлечь текстовые данные из текстовых файлов, HTML, Microsoft ® Word, PDF, CSV и Microsoft Excel ® и импортировать их в MATLAB ® для анализа.

Анализ HTML и извлечение текстового содержимого

В этом примере показано, как анализировать HTML-код и извлекать текстовое содержимое из определенных элементов.

Наборы данных для анализа текста

Обнаружение наборов данных для различных задач анализа текста.

Предварительная обработка

Подготовка текстовых данных для анализа

В этом примере показано, как создать функцию очистки и предварительной обработки текстовых данных для анализа.

Анализ текстовых данных, содержащих эмодзи

В этом примере показано, как анализировать текстовые данные, содержащие эмодзи.

Правильное написание в документах

В этом примере показано, как исправить орфографию в документах с помощью Hunspell.

Создание дополнительного словаря для исправления орфографии

В этом примере показано, как создать словарь расширения Hunspell для исправления орфографии.

Создание пользовательской функции исправления орфографии с помощью функции «Редактировать поисковики расстояний»

В этом примере показано, как исправить орфографию с помощью средств поиска расстояния редактирования и словаря известных слов.

Языковая поддержка

Языковые соображения

Сведения об использовании инструментов Text Analytics Toolbox для других языков.

Поддержка японского языка

Информация о поддержке на японском языке в инструментарии Text Analytics Toolbox.

Анализ текстовых данных на японском языке

В этом примере показано, как импортировать, подготовить и проанализировать японские текстовые данные с использованием тематической модели.

Поддержка немецкого языка

Информация о поддержке на немецком языке в инструментарии Text Analytics Toolbox.

Анализ текстовых данных на немецком языке

В этом примере показано, как импортировать, подготовить и проанализировать текстовые данные на немецком языке с использованием тематической модели.

Характерные примеры

Извлечение текстовых данных из файлов

Извлеките текстовые данные из текстовых файлов, HTML, Microsoft ® Word, PDF, CSV и Microsoft Excel ® и импортируйте их в MATLAB ® для анализа.

Открыть сценарий в реальном времени