Визуализация текстовых данных с помощью облаков Word

В этом примере показано, как визуализировать текстовые данные с помощью облаков слов.

Symbolic Math Toolbox расширяет функциональность wordcloud (MATLAB) функция. Он добавляет поддержку для создания облаков слов непосредственно из строковых массивов и создания облаков слов из моделей мешков слов и тем LDA.

Загрузите данные примера. Файл factoryReports.csv содержит заводские отчеты, включая текстовое описание и категориальные метки для каждого события.

filename = "factoryReports.csv";
tbl = readtable(filename,'TextType','string');

Извлеките текстовые данные из Description столбец.

textData = tbl.Description;
textData(1:10)
ans = 10x1 string
    "Items are occasionally getting stuck in the scanner spools."
    "Loud rattling and banging sounds are coming from assembler pistons."
    "There are cuts to the power when starting the plant."
    "Fried capacitors in the assembler."
    "Mixer tripped the fuses."
    "Burst pipe in the constructing agent is spraying coolant."
    "A fuse is blown in the mixer."
    "Things continue to tumble off of the belt."
    "Falling items from the conveyor belt."
    "The scanner reel is split, it will soon begin to curve."

Создайте облако слов из отчетов.

figure
wordcloud(textData);
title("Factory Reports")

Figure contains an object of type wordcloud. The chart of type wordcloud has title Factory Reports.

Сравните слова в отчетах с метками "Leak" и "Mechanical Failure". Создайте облака слов из отчетов для каждой из этих меток. Задайте цвет слова, чтобы быть синим и пурпурным для каждого облака слов, соответственно.

figure
labels = tbl.Category;

subplot(1,2,1)
idx = labels == "Leak";
wordcloud(textData(idx),'Color','blue');
title("Leak")

subplot(1,2,2)
idx = labels == "Mechanical Failure";
wordcloud(textData(idx),'Color','magenta');
title("Mechanical Failure")

Figure contains objects of type wordcloud. The chart of type wordcloud has title Leak. The chart of type wordcloud has title Mechanical Failure.

Сравните слова в докладах с срочностью «Низкий», «Средний» и «Высокий».

figure
urgency = tbl.Urgency;

subplot(1,3,1)
idx = urgency == "Low";
wordcloud(textData(idx));
title("Urgency: Low")

subplot(1,3,2)
idx = urgency == "Medium";
wordcloud(textData(idx));
title("Urgency: Medium")

subplot(1,3,3)
idx = urgency == "High";
wordcloud(textData(idx));
title("Urgency: High")

Figure contains objects of type wordcloud. The chart of type wordcloud has title Urgency: Low. The chart of type wordcloud has title Urgency: Medium. The chart of type wordcloud has title Urgency: High.

Сравните слова в отчетах со стоимостью в сотнях долларов с отчетами с расходами в тысячах долларов. Создайте облака слов из отчетов для каждой из этих сумм с цветом подсветки синий и красный соответственно.

cost = tbl.Cost;
idx = cost > 100;
figure
wordcloud(textData(idx),'HighlightColor','blue');
title("Cost > $100")

Figure contains an object of type wordcloud. The chart of type wordcloud has title Cost > $100.

idx = cost > 1000;
figure
wordcloud(textData(idx),'HighlightColor','red');
title("Cost > $1,000")

Figure contains an object of type wordcloud. The chart of type wordcloud has title Cost > $1,000.

См. также

| |

Похожие темы