Попробуйте Text Analytics в 10 строках кода

В этом примере показано, как использовать текстовую аналитику для классификации текстовых данных, используя только 10 линии кода MATLAB ®. Попробуйте пример, чтобы увидеть, насколько просто начать аналитику текста в MATLAB.

Можно создать простую модель классификации, которая использует счетчики частот слов в качестве предикторов. Этот пример обучает классификационную модель прогнозировать тип событий заводских отчетов с помощью текстовых описаний.

Создайте модель

Основными шагами создания модели являются:

  1. Импорт - импорт текстовых данных в MATLAB.

  2. Предварительная обработка - предварительная обработка текста для анализа слов.

  3. Преобразуйте - преобразуйте текст в числовые данные.

  4. Обучите - обучите классификационную модель.

Импортируйте текстовые данные и метки примера, токенизируйте текст, преобразуйте его в числовые данные с помощью модели bag-of-words и обучите контролируемый классификатор SVM.

data = readtable('factoryReports.csv','TextType','String'); % Read data
labels = categorical(data.Category);                        % Read labels

documents = tokenizedDocument(data.Description);            % Preprocess text

bag = bagOfWords(documents);                                % Count words
XTrain = bag.Counts;                                        % Convert to numeric data

mdl = fitcecoc(XTrain,labels,'Learners','linear');          % Train classifier

Предсказание с использованием новых данных

Шаги для предсказания аналогичны шагам для обучения. Чтобы предсказать использование новых данных, предварительно обработайте текстовые данные и преобразуйте их в числа, используя те же шаги, которые используются для обучения. Затем спрогнозируйте метку с помощью обученной модели.

Спрогнозируйте метку для текста "Coolant is pooling underneath sorter.".

str = "Coolant is pooling underneath sorter.";              % Import text
documentsNew = tokenizedDocument(str);                      % Preprocess text
XTest = encode(bag,documentsNew);                           % Convert to numeric
label = predict(mdl,XTest)                                  % Predict label
label = categorical
     Leak 

Для примера, показывающего более подробный рабочий процесс, смотрите Создание Простой Текстовой Модели для Классификации.

Для следующих шагов в текстовой аналитике можно попробовать улучшить точность модели путем предварительной обработки данных и визуализации текстовых данных с помощью облаков слов. Для примеров смотрите Подготовить текстовые данные к анализу и Визуализировать Текстовые данные Используя Облака Word.

См. также

| |

Похожие темы