В этом примере показано, как использовать текстовую аналитику, чтобы классифицировать текстовые данные с помощью только 10 линий кода MATLAB®. Попробуйте пример, чтобы видеть, как простой это должно начать с текстовой аналитикой в MATLAB.
Можно создать простую модель классификации, которая использует количества частотности слова в качестве предикторов. Этот пример обучает модель классификации предсказывать тип события отчетов фабрики с помощью текстовых описаний.
Основные шаги создания модели:
Импорт – импортирует текстовые данные в MATLAB.
Предварительно обработайте – предварительно обрабатывают текст для анализа слова.
Преобразуйте – преобразуют текст в числовые данные.
Обучайтесь – обучают модель классификации.
Импортируйте текстовые данные в качестве примера и метки, маркируйте текст, преобразуйте его в числовые данные с помощью модели сумки слов и обучите контролируемый классификатор SVM.
data = readtable('factoryReports.csv','TextType','String'); % Read data labels = categorical(data.Category); % Read labels documents = tokenizedDocument(data.Description); % Preprocess text bag = bagOfWords(documents); % Count words XTrain = bag.Counts; % Convert to numeric data mdl = fitcecoc(XTrain,labels,'Learners','linear'); % Train classifier
Шаги для предсказания похожи на тех для обучения. Чтобы предсказать использующие новые данные, предварительно обработайте текстовые данные и преобразуйте его в числовое использование тех же шагов, используемых в обучении. Затем предскажите метку с помощью обученной модели.
Предскажите метку для текста "Coolant is pooling underneath sorter."
.
str = "Coolant is pooling underneath sorter."; % Import text documentsNew = tokenizedDocument(str); % Preprocess text XTest = encode(bag,documentsNew); % Convert to numeric label = predict(mdl,XTest) % Predict label
label = categorical
Leak
Для примера, показывающего более подробный рабочий процесс, смотрите, Создают Простую текстовую Модель для Классификации.
Для следующих шагов в текстовой аналитике можно попытаться улучшить точность модели путем предварительной обработки данных и визуализировать текстовые данные с помощью облаков слова. Для примеров смотрите, Готовят текстовые Данные к Анализу и Визуализируют текстовые Данные Используя Word Clouds.
bagOfWords
| encode
| tokenizedDocument