Подготовка текстовых данных

Импортируйте текстовые данные в MATLAB^® и предварительно обработайте его для анализа

Text Analytics Toolbox™ включает инструменты для обработки необработанного текста из источников, таких как журналы оборудования, ленты новостей, обзоры, отчеты оператора и социальные сети. Используйте эти инструменты, чтобы извлечь текст из популярных файловых форматов, предварительно обработать необработанный текст, извлечь отдельные слова или фразы многословные (N-граммы), преобразовать текст в числовые представления и статистические модели сборки. Для примера, показывающего, как начать, смотрите, Готовят текстовые Данные к Анализу.

Text Analytics Toolbox поддерживает Английский, Японский ,Немецкий и Корейский языки. Большинство функций Text Analytics Toolbox работает с текстом с других языков. Для получения дополнительной информации смотрите Факторы Языка.

Функции

развернуть все

Импорт и экспорт

`extractFileText`	Считайте текст из PDF, Microsoft Word, HTML и файлов простого текста
`extractHTMLText`	Извлеките текст из HTML
`readPDFFormData`	Считайте данные из форм PDF
`writeTextDocument`	Запишите документы текстовому файлу

Парсинг HTML

`htmlTree`	Проанализированное дерево HTML
`findElement`	Найдите элементы в дереве HTML
`getAttribute`	Считайте HTML-атрибут корневого узла дерева HTML
`ismissing`	Найдите деревья HTML без значений
`string`	Преобразуйте проанализированное дерево HTML, чтобы представить в виде строки

Предварительная обработка документа

`tokenizedDocument`	Массив маркируемых документов для текстового анализа
`erasePunctuation`	Сотрите пунктуацию из текста и документов
`eraseTags`	Сотрите HTML-тэги и XML-тэги из текста
`eraseURLs`	Сотрите HTTP и URL HTTPS из текста
`removeStopWords`	Удалите слова остановки из документов
`removeShortWords`	Удалите короткие слова из модели сумки слов или документов
`removeLongWords`	Удалите длинные слова из модели сумки слов или документов
`removeWords`	Удалите выбранные слова из модели сумки слов или документов
`normalizeWords`	Определите корень или лемматизируйте слова
`replaceWords`	Замените слова в документах
`replaceNgrams`	Замените N-граммы в документах
`stopWords`	Список слов остановки
`decodeHTMLEntities`	Преобразуйте HTML и сущности XML в символы
`lower`	Преобразуйте документы нижнему регистру
`upper`	Преобразуйте документы верхнему регистру

Маркерные детали

`context`	Поисковые документы для слова или случаев n-граммы в контексте
`tokenDetails`	Детали лексем в маркируемом массиве документа
`addSentenceDetails`	Добавьте числа предложения в документы
`addPartOfSpeechDetails`	Добавьте теги части речи в документы
`addLemmaDetails`	Добавьте формы леммы лексем к документам
`addLanguageDetails`	Добавьте идентификаторы языка в документы
`addEntityDetails`	Добавьте теги сущности в документы
`addTypeDetails`	Добавьте, что тип маркера назначает в документы
`splitSentences`	Разделите текст в предложения
`corpusLanguage`	Обнаружьте язык текста
`abbreviations`	Таблица общих сокращений
`topLevelDomains`	Список областей верхнего уровня

Word и подсчет n-граммы

`bagOfWords`	Модель сумки слов
`bagOfNgrams`	Мешок n модели граммов
`addDocument`	Добавьте документы сумке слов или мешку n модели граммов
`removeDocument`	Удалите документы из сумки слов или мешка n модели граммов
`removeInfrequentWords`	Удалите слова с низкими количествами из модели сумки слов
`removeInfrequentNgrams`	Удалите нечасто замечаемые N-граммы из мешка n модели граммов
`removeNgrams`	Удалите N-граммы из мешка n модели граммов
`removeEmptyDocuments`	Удалите пустые документы из маркируемого массива документа, модель сумки слов или мешок n модели граммов
`topkwords`	Большинство важных слов в модели сумки слов или теме LDA
`topkngrams`	Большинство частых N-грамм
`encode`	Закодируйте документы как матрицу количеств n-граммы или слова
`tfidf`	Назовите Обратную Частотой Частоту Документа (tf-idf) матрицей
`join`	Объедините несколько сумка слов или мешок n моделей граммов

Исправление орфографических ошибок и расстояние редактирования

`correctSpelling`	Правильное написание слов
`editDistance`	Найдите расстояние редактирования между двумя строками или документами
`editDistanceSearcher`	Отредактируйте расстояние самый близкий соседний искатель
`knnsearch`	Найдите самых близких соседей расстоянием редактирования
`rangesearch`	Найдите самых близких соседей областью значений расстояния редактирования
`splitGraphemes`	Разделите строку в графемы

Манипуляция с документами и преобразование

`docfun`	Примените функцию к словам в документах
`plus`	Добавьте документы
`replace`	Замените подстроки в документах
`regexprep`	Замените текст в словах документов с помощью регулярного выражения
`doclength`	Длина документов в массиве документа
`doc2cell`	Преобразуйте документы массиву ячеек векторов строки
`joinWords`	Преобразуйте документы, чтобы представить в виде строки путем присоединения слов
`string`	Преобразуйте скалярный документ, чтобы представить вектор в виде строки

Unicode

`textanalytics.unicode.nfd`	Unicode анализировал нормированную форму (NFD)
`UTF32`	Unicode строковое представление UTF-32
`characterCategories`	Категории символа Unicode
`hex`	Преобразуйте представление UTF-32 шестнадцатеричным значениям
`string`	Преобразуйте представление UTF-32 строке

Темы

Импорт

Извлеките текстовые данные из файлов

В этом примере показано, как извлечь текстовые данные из текста, HTML, Microsoft® Word, PDF, CSV и файлы Microsoft Excel® и импортировать его в MATLAB® для анализа.

Проанализируйте HTML и извлеките текстовое содержимое

В этом примере показано, как проанализировать код HTML и извлечь текстовое содержимое из конкретных элементов.

Наборы данных для текстовой аналитики

Узнайте наборы данных для различных текстовых задач аналитики.