exponenta event banner

Попробуйте анализ текста в 10 строках кода

В этом примере показано, как использовать текстовую аналитику для классификации текстовых данных с использованием только 10 строк кода MATLAB ®. Попробуйте попробовать пример, чтобы понять, насколько просто начать работу с текстовой аналитикой в MATLAB.

Можно создать простую классификационную модель, в которой в качестве предикторов используются значения частоты слов. В этом примере описывается модель классификации для прогнозирования типа событий заводских отчетов с использованием текстовых описаний.

Создать модель

Основными шагами создания модели являются:

  1. Импорт - импорт текстовых данных в MATLAB.

  2. Предварительная обработка - предварительная обработка текста для анализа слов.

  3. Преобразовать - преобразование текста в числовые данные.

  4. Поезд - обучение модели классификации.

Импортируйте примерные текстовые данные и метки, закрепляйте текст, преобразуйте его в числовые данные с помощью модели пакета слов и обучайте контролируемый классификатор SVM.

data = readtable('factoryReports.csv','TextType','String'); % Read data
labels = categorical(data.Category);                        % Read labels

documents = tokenizedDocument(data.Description);            % Preprocess text

bag = bagOfWords(documents);                                % Count words
XTrain = bag.Counts;                                        % Convert to numeric data

mdl = fitcecoc(XTrain,labels,'Learners','linear');          % Train classifier

Прогнозирование с использованием новых данных

Шаги для прогнозирования аналогичны шагам для обучения. Для прогнозирования с использованием новых данных выполните предварительную обработку текстовых данных и преобразуйте их в числовые с использованием тех же шагов, что и при обучении. Затем спрогнозируйте метку с использованием обученной модели.

Прогнозирование метки для текста "Coolant is pooling underneath sorter.".

str = "Coolant is pooling underneath sorter.";              % Import text
documentsNew = tokenizedDocument(str);                      % Preprocess text
XTest = encode(bag,documentsNew);                           % Convert to numeric
label = predict(mdl,XTest)                                  % Predict label
label = categorical
     Leak 

Пример более подробного рабочего процесса см. в разделе Создание простой текстовой модели для классификации.

На следующих этапах анализа текста можно попытаться повысить точность модели, предварительно обработав данные и визуализировав текстовые данные с помощью облаков слов. Примеры см. в разделе Подготовка текстовых данных для анализа и визуализация текстовых данных с помощью облаков Word.

См. также

| |

Связанные темы