Запуск с моделированием тем

В этом примере показано, как подгонять модель темы к текстовым данным и визуализировать темы.

Модель латентного распределения Дирихле (LDA) является тематической моделью, которая обнаруживает базовые темы в наборе документов. Темы, характеризующиеся распределениями слов, соответствуют группам обычно сопутствующих слов. LDA является неконтролируемой тематической моделью, что означает, что она не требует маркированных данных.

Загрузка и извлечение текстовых данных

Загрузите данные примера. Файл factoryReports.csv содержит заводские отчеты, включая текстовое описание и категориальные метки для каждого события.

Импортируйте данные с помощью readtable и извлеките текстовые данные из Description столбец.

filename = "factoryReports.csv";
data = readtable(filename,'TextType','string');
textData = data.Description;

Подготовка текстовых данных к анализу

Токенизация и предварительная обработка текстовых данных и создание модели мешка слов.

Токенизируйте текст.

documents = tokenizedDocument(textData);

Чтобы улучшить подгонку модели, удалите из документов пунктуацию и стоповые слова (такие как «и», «из» и «из»).

documents = removeStopWords(documents);
documents = erasePunctuation(documents);

Создайте модель мешка слов.

bag = bagOfWords(documents);

Подгонка модели LDA

Подгонка модели LDA с семью темами с помощью fitlda функция. Чтобы подавить подробный выход, установите 'Verbose' опция для 0.

numTopics = 7;
mdl = fitlda(bag,numTopics,'Verbose',0);

Визуализация тем

Визуализация первых четырех тем с помощью облаков слов.

figure
for topicIdx = 1:4
    subplot(2,2,topicIdx)
    wordcloud(mdl,topicIdx);
    title("Topic " + topicIdx)
end

Figure contains objects of type wordcloud. The chart of type wordcloud has title Topic 1. The chart of type wordcloud has title Topic 2. The chart of type wordcloud has title Topic 3. The chart of type wordcloud has title Topic 4.

Для следующих шагов в текстовой аналитике можно попробовать улучшить подгонку модели с помощью различных шагов предварительной обработки и визуализации смесей тем. Для получения примера смотрите Анализ текстовых данных с помощью моделей топик.

См. также

Symbolic Math Toolbox

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.

Документация