Попробуйте текстовую аналитику в 10 строках кода

В этом примере показано, как использовать текстовую аналитику, чтобы классифицировать текстовые данные с помощью только 10 линий кода MATLAB®. Попробуйте пример, чтобы видеть, как простой это должно начать с текстовой аналитикой в MATLAB.

Можно создать простую модель классификации, которая использует количества частотности слова в качестве предикторов. Этот пример обучает модель классификации предсказывать тип события отчетов фабрики с помощью текстовых описаний.

Создайте модель

Основные шаги создания модели:

  1. Импорт – импортирует текстовые данные в MATLAB.

  2. Предварительно обработайте – предварительно обрабатывают текст для анализа слова.

  3. Преобразуйте – преобразуют текст в числовые данные.

  4. Обучайтесь – обучают модель классификации.

Импортируйте текстовые данные в качестве примера и метки, маркируйте текст, преобразуйте его в числовые данные с помощью модели сумки слов и обучите контролируемый классификатор SVM.

data = readtable('factoryReports.csv','TextType','String'); % Read data
labels = categorical(data.Category);                        % Read labels

documents = tokenizedDocument(data.Description);            % Preprocess text

bag = bagOfWords(documents);                                % Count words
XTrain = bag.Counts;                                        % Convert to numeric data

mdl = fitcecoc(XTrain,labels,'Learners','linear');          % Train classifier

Предскажите Используя новые данные

Шаги для предсказания похожи на тех для обучения. Чтобы предсказать использующие новые данные, предварительно обработайте текстовые данные и преобразуйте его в числовое использование тех же шагов, используемых для обучения. Затем предскажите метку с помощью обученной модели.

Предскажите метку для текста "Coolant is pooling underneath sorter.".

str = "Coolant is pooling underneath sorter.";              % Import text
documentsNew = tokenizedDocument(str);                      % Preprocess text
XTest = encode(bag,documentsNew);                           % Convert to numeric
label = predict(mdl,XTest)                                  % Predict label
label = categorical
     Leak 

Для примера, показывающего более подробный рабочий процесс, смотрите, Создают Простую текстовую Модель для Классификации.

Для следующих шагов в текстовой аналитике можно попытаться улучшить точность модели путем предварительной обработки данных и визуализировать текстовые данные с помощью облаков слова. Для примеров смотрите, Готовят текстовые Данные к Анализу и Визуализируют текстовые Данные Используя Word Clouds.

Смотрите также

| |

Похожие темы