Text Analytics Toolbox™ включает инструменты для обработки необработанного текста из таких источников, как журналы оборудования, новостные ленты, опросы, отчеты операторов и социальные сети. Эти инструменты используются для извлечения текста из популярных форматов файлов, предварительной обработки исходного текста, извлечения отдельных слов или многословных фраз (n-grams), преобразования текста в числовые представления и построения статистических моделей. Пример начала работы см. в разделе Подготовка текстовых данных к анализу.
Модуль Text Analytics Toolbox поддерживает языки английский, японский, немецкий и корейский. Большинство функций панели инструментов Text Analytics работают с текстом из других языков. Дополнительные сведения см. в разделе Вопросы языка.
Извлечение текстовых данных из файлов
В этом примере показано, как извлечь текстовые данные из текстовых файлов, HTML, Microsoft ® Word, PDF, CSV и Microsoft Excel ® и импортировать их в MATLAB ® для анализа.
Анализ HTML и извлечение текстового содержимого
В этом примере показано, как анализировать HTML-код и извлекать текстовое содержимое из определенных элементов.
Наборы данных для анализа текста
Обнаружение наборов данных для различных задач анализа текста.
Подготовка текстовых данных для анализа
В этом примере показано, как создать функцию очистки и предварительной обработки текстовых данных для анализа.
Анализ текстовых данных, содержащих эмодзи
В этом примере показано, как анализировать текстовые данные, содержащие эмодзи.
Правильное написание в документах
В этом примере показано, как исправить орфографию в документах с помощью Hunspell.
Создание дополнительного словаря для исправления орфографии
В этом примере показано, как создать словарь расширения Hunspell для исправления орфографии.
В этом примере показано, как исправить орфографию с помощью средств поиска расстояния редактирования и словаря известных слов.
Сведения об использовании инструментов Text Analytics Toolbox для других языков.
Информация о поддержке на японском языке в инструментарии Text Analytics Toolbox.
Анализ текстовых данных на японском языке
В этом примере показано, как импортировать, подготовить и проанализировать японские текстовые данные с использованием тематической модели.
Информация о поддержке на немецком языке в инструментарии Text Analytics Toolbox.
Анализ текстовых данных на немецком языке
В этом примере показано, как импортировать, подготовить и проанализировать текстовые данные на немецком языке с использованием тематической модели.