В этом примере показано, как использовать текстовую аналитику для классификации текстовых данных, используя только 10 линии кода MATLAB ®. Попробуйте пример, чтобы увидеть, насколько просто начать аналитику текста в MATLAB.
Можно создать простую модель классификации, которая использует счетчики частот слов в качестве предикторов. Этот пример обучает классификационную модель прогнозировать тип событий заводских отчетов с помощью текстовых описаний.
Основными шагами создания модели являются:
Импорт - импорт текстовых данных в MATLAB.
Предварительная обработка - предварительная обработка текста для анализа слов.
Преобразуйте - преобразуйте текст в числовые данные.
Обучите - обучите классификационную модель.
Импортируйте текстовые данные и метки примера, токенизируйте текст, преобразуйте его в числовые данные с помощью модели bag-of-words и обучите контролируемый классификатор SVM.
data = readtable('factoryReports.csv','TextType','String'); % Read data labels = categorical(data.Category); % Read labels documents = tokenizedDocument(data.Description); % Preprocess text bag = bagOfWords(documents); % Count words XTrain = bag.Counts; % Convert to numeric data mdl = fitcecoc(XTrain,labels,'Learners','linear'); % Train classifier
Шаги для предсказания аналогичны шагам для обучения. Чтобы предсказать использование новых данных, предварительно обработайте текстовые данные и преобразуйте их в числа, используя те же шаги, которые используются для обучения. Затем спрогнозируйте метку с помощью обученной модели.
Спрогнозируйте метку для текста "Coolant is pooling underneath sorter."
.
str = "Coolant is pooling underneath sorter."; % Import text documentsNew = tokenizedDocument(str); % Preprocess text XTest = encode(bag,documentsNew); % Convert to numeric label = predict(mdl,XTest) % Predict label
label = categorical
Leak
Для примера, показывающего более подробный рабочий процесс, смотрите Создание Простой Текстовой Модели для Классификации.
Для следующих шагов в текстовой аналитике можно попробовать улучшить точность модели путем предварительной обработки данных и визуализации текстовых данных с помощью облаков слов. Для примеров смотрите Подготовить текстовые данные к анализу и Визуализировать Текстовые данные Используя Облака Word.
bagOfWords
| encode
| tokenizedDocument