Попробуйте текстовую аналитику в 10 строках кода

Этот пример показывает, как использовать текстовую аналитику, чтобы классифицировать текстовые данные с помощью только 10 строк кода MATLAB®. Попробуйте пример, чтобы видеть, как простой это должно начать с текстовой аналитикой в MATLAB.

Можно создать простую модель классификации, которая использует количества частотности слова в качестве предикторов. Этот пример обучает модель классификации предсказывать тип события прогнозов погоды с помощью текстовых описаний.

Создайте модель

Основные шаги создания модели:

  1. Импорт – импортирует текстовые данные в MATLAB.

  2. Предварительно обработайте – предварительно обрабатывают текст для анализа слова.

  3. Преобразуйте – преобразовывают текст в числовые данные.

  4. Train – обучает модель классификации.

Импортируйте текстовые данные в качестве примера и метки, маркируйте текст, преобразуйте его в числовые данные с помощью модели сумки слов и обучите контролируемый классификатор SVM.

data = readtable('weatherReports.csv','TextType','String'); % Read data
labels = categorical(data.event_type);                      % Read labels

documents = tokenizedDocument(data.event_narrative);        % Preprocess text

bag = bagOfWords(documents);                                % Count words
XTrain = bag.Counts;                                        % Convert to numeric data

mdl = fitcecoc(XTrain,labels,'Learners','linear');          % Train classifier

Предскажите Используя новые данные

Шаги для прогноза подобны тем для обучения. Чтобы предсказать использующие новые данные, предварительно обработайте текстовые данные и преобразуйте его в числовое использование тех же шагов, используемых для обучения. Затем предскажите метку с помощью обученной модели.

Предскажите метку для текста "A large tree is downed.".

str = "A large tree is downed.";                            % Import text
documentsNew = tokenizedDocument(str);                      % Preprocess text
XTest = encode(bag,documentsNew);                           % Convert to numeric
label = predict(mdl,XTest)                                  % Predict label
label = categorical
     Thunderstorm Wind 

Для примера, показывающего более подробный рабочий процесс, смотрите, Создают Простую текстовую Модель для Классификации.

Для следующих шагов в текстовой аналитике можно попытаться улучшить точность модели путем предварительной обработки данных и визуализировать текстовые данные с помощью облаков слова. Для примеров смотрите, Готовят текстовые Данные к Анализу и Визуализируют текстовые Данные Используя Word Clouds.

Смотрите также

| |

Похожие темы