Подготовка текстовых данных

Импорт текстовых данных в MATLAB^® и предварительно обработать его для анализа

Text Analytics Toolbox™ включает инструменты для обработки необработанного текста из источников, таких как журналы оборудования, ленты новостей, опросы, отчеты операторов и социальные сети. Используйте эти инструменты, чтобы извлечь текст из популярных файловых форматов, предварительно обработать необработанный текст, извлечь отдельные слова или многословные фразы (n-граммы), преобразовать текст в числовые представления и создать статистические модели. Пример, показывающий начало работы, см. в разделе Подготовка текстовых данных к анализу.

Symbolic Math Toolbox поддерживает английский, японский, немецкий и корейский языки. Большинство функций Symbolic Math Toolbox работают с текстом из других языков. Дополнительные сведения см. в разделе Языковые факторы.

Функции

расширить все

Импорт и экспорт

`extractFileText`	Чтение текста из PDF, Microsoft Word, HTML и простых текстовых файлов
`extractHTMLText`	Извлечение текста из HTML
`readPDFFormData`	Чтение данных из PDF
`writeTextDocument`	Запись документов в текстовый файл

Синтаксический анализ HTML

`htmlTree`	Синтаксический HTML
`findElement`	Поиск элементов в HTML
`getAttribute`	Чтение HTML корневого узла HTML
`ismissing`	Поиск HTML без значений
`string`	Преобразование синтаксического HTML в строку

Предварительная обработка документов

`tokenizedDocument`	Массив токенизированных документов для анализа текста
`erasePunctuation`	Удалите пунктуацию из текста и документов
`eraseTags`	Стереть HTML и XML теги из текста
`eraseURLs`	Удалите URL-адреса HTTP и HTTPS из текста
`removeStopWords`	Удалите стоповые слова из документов
`removeShortWords`	Удалите короткие слова из документов или модели мешка слов
`removeLongWords`	Удалите длинные слова из документов или модели мешка слов
`removeWords`	Удалите выбранные слова из документов или модели мешка слов
`normalizeWords`	Определите корень или лемматизируйте слова
`replaceWords`	Заменить слова в документах
`replaceNgrams`	Замените n-граммы в документах
`stopWords`	Список стоповых слов
`decodeHTMLEntities`	Преобразуйте HTML и XML сущностей в символы
`lower`	Преобразование документов в строчные
`upper`	Преобразование документов в заглавные

Сведения о лексеме

`context`	Поиск документов по вхождениям слов или n-граммов в контексте
`tokenDetails`	Детали лексем в токенизированном массиве документов
`addSentenceDetails`	Добавьте номера предложений к документам
`addPartOfSpeechDetails`	Добавление тегов части речи к документам
`addLemmaDetails`	Добавьте лемма-формы лексем к документам
`addLanguageDetails`	Добавление идентификаторов языков к документам
`addEntityDetails`	Добавление тегов сущностей к документам
`addTypeDetails`	Добавление сведений о типах лексем в документы
`splitSentences`	Разделите текст на предложения
`corpusLanguage`	Обнаружение языка текста
`abbreviations`	Таблица простых сокращений
`topLevelDomains`	Список областей верхнего уровня

Подсчет слов и N-граммов

`bagOfWords`	Модель мешка слов
`bagOfNgrams`	Модель мешка n-граммов
`addDocument`	Добавьте документы в модель мешка слов или мешка n-граммов
`removeDocument`	Удалите документы из модели мешка слов или мешка n-граммов
`removeInfrequentWords`	Удалите слова с низким количеством из модели мешка слов
`removeInfrequentNgrams`	Удалите нечасто замеченные n-граммы из модели мешка n-граммов
`removeNgrams`	Удалите n-граммы из модели мешка n-граммов
`removeEmptyDocuments`	Удалите пустые документы из токенизированного массива документов, модели мешка слов или модели мешка n-граммов
`topkwords`	Самые важные слова в модели мешка слов или теме LDA
`topkngrams`	Наиболее частые n-граммы
`encode`	Закодируйте документы как матрицу счетчиков слов или n-граммов
`tfidf`	Term Frequency-Inverse Document Frequency (tf-idf) матрица
`join`	Объедините несколько моделей мешка слов или мешка n-граммов

Коррекция орфографии и изменение расстояния

`correctSpelling`	Правильное написание слов
`editDistance`	Найдите расстояние между двумя строками или документами
`editDistanceSearcher`	Отредактируйте расстояние ближайшего соседа искателя
`knnsearch`	Найти ближайших соседей по расстоянию редактирования
`rangesearch`	Найти ближайших соседей по области значений расстояний редактирования
`splitGraphemes`	Разделите строку на графемы

Манипуляция и преобразование документов

`docfun`	Применить функцию к словам в документах
`plus`	Добавление документов
`replace`	Замените подстроки в документах
`regexprep`	Замените текст в словах документов с помощью регулярного выражения
`doclength`	Длина документов в массиве документов
`doc2cell`	Преобразуйте документы в массив ячеек из строковых векторов
`joinWords`	Преобразование документов в строки путем соединения слов
`string`	Преобразуйте скалярный документ в строковый вектор

Unicode

`textanalytics.unicode.nfd`	Разложенная нормированная форма (NFD) Юникода
`UTF32`	Юникод UTF-32 строковое представление
`characterCategories`	Категории символов Юникод
`hex`	Преобразуйте UTF-32 представление в шестнадцатеричные значения
`string`	Преобразуйте UTF-32 представление в строковое

Темы

Импорт

Извлечение текстовых данных из файлов

В этом примере показано, как извлечь текстовые данные из файлов text, HTML, Microsoft ® Word, PDF, CSV и Microsoft Excel ® и импортировать их в MATLAB ® для анализа.

Синтаксический анализ HTML и извлечение текстового содержимого

В этом примере показов, как проанализировать HTML кода и извлечь текстовое содержимое из конкретных элементов.

Наборы данных для текстовой аналитики

Обнаружение наборов данных для различных задач текстовой аналитики.