В этом примере показано, как использовать текстовую аналитику для классификации текстовых данных с использованием только 10 строк кода MATLAB ®. Попробуйте попробовать пример, чтобы понять, насколько просто начать работу с текстовой аналитикой в MATLAB.
Можно создать простую классификационную модель, в которой в качестве предикторов используются значения частоты слов. В этом примере описывается модель классификации для прогнозирования типа событий заводских отчетов с использованием текстовых описаний.
Основными шагами создания модели являются:
Импорт - импорт текстовых данных в MATLAB.
Предварительная обработка - предварительная обработка текста для анализа слов.
Преобразовать - преобразование текста в числовые данные.
Поезд - обучение модели классификации.
Импортируйте примерные текстовые данные и метки, закрепляйте текст, преобразуйте его в числовые данные с помощью модели пакета слов и обучайте контролируемый классификатор SVM.
data = readtable('factoryReports.csv','TextType','String'); % Read data labels = categorical(data.Category); % Read labels documents = tokenizedDocument(data.Description); % Preprocess text bag = bagOfWords(documents); % Count words XTrain = bag.Counts; % Convert to numeric data mdl = fitcecoc(XTrain,labels,'Learners','linear'); % Train classifier
Шаги для прогнозирования аналогичны шагам для обучения. Для прогнозирования с использованием новых данных выполните предварительную обработку текстовых данных и преобразуйте их в числовые с использованием тех же шагов, что и при обучении. Затем спрогнозируйте метку с использованием обученной модели.
Прогнозирование метки для текста "Coolant is pooling underneath sorter.".
str = "Coolant is pooling underneath sorter."; % Import text documentsNew = tokenizedDocument(str); % Preprocess text XTest = encode(bag,documentsNew); % Convert to numeric label = predict(mdl,XTest) % Predict label
label = categorical
Leak
Пример более подробного рабочего процесса см. в разделе Создание простой текстовой модели для классификации.
На следующих этапах анализа текста можно попытаться повысить точность модели, предварительно обработав данные и визуализировав текстовые данные с помощью облаков слов. Примеры см. в разделе Подготовка текстовых данных для анализа и визуализация текстовых данных с помощью облаков Word.
bagOfWords | encode | tokenizedDocument