Попробуйте анализ текста в 10 строках кода

Открыть сценарий в реальном времени

В этом примере показано, как использовать текстовую аналитику для классификации текстовых данных с использованием только 10 строк кода MATLAB ®. Попробуйте попробовать пример, чтобы понять, насколько просто начать работу с текстовой аналитикой в MATLAB.

Можно создать простую классификационную модель, в которой в качестве предикторов используются значения частоты слов. В этом примере описывается модель классификации для прогнозирования типа событий заводских отчетов с использованием текстовых описаний.

Создать модель

Основными шагами создания модели являются:

Импорт - импорт текстовых данных в MATLAB.
Предварительная обработка - предварительная обработка текста для анализа слов.
Преобразовать - преобразование текста в числовые данные.
Поезд - обучение модели классификации.

Импортируйте примерные текстовые данные и метки, закрепляйте текст, преобразуйте его в числовые данные с помощью модели пакета слов и обучайте контролируемый классификатор SVM.

data = readtable('factoryReports.csv','TextType','String'); % Read data
labels = categorical(data.Category);                        % Read labels

documents = tokenizedDocument(data.Description);            % Preprocess text

bag = bagOfWords(documents);                                % Count words
XTrain = bag.Counts;                                        % Convert to numeric data

mdl = fitcecoc(XTrain,labels,'Learners','linear');          % Train classifier

Прогнозирование с использованием новых данных

Шаги для прогнозирования аналогичны шагам для обучения. Для прогнозирования с использованием новых данных выполните предварительную обработку текстовых данных и преобразуйте их в числовые с использованием тех же шагов, что и при обучении. Затем спрогнозируйте метку с использованием обученной модели.

Прогнозирование метки для текста "Coolant is pooling underneath sorter.".

str = "Coolant is pooling underneath sorter.";              % Import text
documentsNew = tokenizedDocument(str);                      % Preprocess text
XTest = encode(bag,documentsNew);                           % Convert to numeric
label = predict(mdl,XTest)                                  % Predict label

label = categorical
     Leak

Пример более подробного рабочего процесса см. в разделе Создание простой текстовой модели для классификации.

На следующих этапах анализа текста можно попытаться повысить точность модели, предварительно обработав данные и визуализировав текстовые данные с помощью облаков слов. Примеры см. в разделе Подготовка текстовых данных для анализа и визуализация текстовых данных с помощью облаков Word.

См. также

bagOfWords | encode | tokenizedDocument

Связанные темы

Документация по инструментам для анализа текста

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.