Text Analytics Toolbox™ включает инструменты для обработки необработанного текста из источников, таких как журналы оборудования, ленты новостей, обзоры, отчеты оператора и социальные сети. Используйте эти инструменты, чтобы извлечь текст от популярных файловых форматов, предварительно обработать необработанный текст, извлечь отдельные слова или фразы многословные (N-граммы), преобразовать текст в числовые представления и статистические модели сборки. Для примера, показывающего, как начать, смотрите, Готовят текстовые Данные к Анализу.
Text Analytics Toolbox поддерживает англичан языков, японцев и немца. Большинство функций Text Analytics Toolbox работает с текстом с других языков. Для получения дополнительной информации смотрите Факторы Языка.
Извлеките текстовые данные из файлов
Этот пример показывает, как извлечь текстовые данные из текста, HTML, Microsoft® Word, PDF, CSV и файлы Microsoft Excel® и импортировать его в MATLAB® для анализа.
Проанализируйте HTML и извлеките текстовое содержимое
Этот пример показывает, как проанализировать код HTML и извлечь текстовое содержимое от конкретных элементов.
Подготовьте текстовые данные к анализу
Этот пример показывает, как создать функцию, которая чистит и предварительно обрабатывает текстовые данные для анализа.
Анализируйте текстовые данные, содержащие эмодзи
Этот пример показывает, как анализировать текстовые данные, содержащие эмодзи.
Правильное написание Используя искателей расстояния редактирования
Этот пример показывает, как исправить написание с помощью искателей расстояния редактирования и словаря известных слов.
Информация об использовании функций Text Analytics Toolbox для других языков.
Информация о японской поддержке в Text Analytics Toolbox.
Анализируйте японские текстовые данные
Этот пример показывает, как импортировать, подготовить, и анализировать японские текстовые данные с помощью модели темы.
Информация о немецкой поддержке в Text Analytics Toolbox.
Анализируйте немецкие текстовые данные
Этот пример показывает, как импортировать, подготовить, и анализировать немецкие текстовые данные с помощью модели темы.