Начало работы с моделированием тем

В этом примере показано, как подгонять модель раздела под текстовые данные и визуализировать разделы.

Модель латентного распределения Дирихле (LDA) - это модель тематики, которая обнаруживает основные темы в коллекции документов. Темы, характеризующиеся распределением слов, соответствуют группам обычно встречающихся слов. LDA - это неконтролируемая модель темы, которая означает, что она не требует помеченных данных.

Загрузка и извлечение текстовых данных

Загрузите данные примера. Файл factoryReports.csv содержит заводские отчеты, включая текстовое описание и категориальные метки для каждого события.

Импорт данных с помощью readtable и извлечь текстовые данные из Description столбец.

filename = "factoryReports.csv";
data = readtable(filename,'TextType','string');
textData = data.Description;

Подготовка текстовых данных для анализа

Выполните токенизацию и предварительную обработку текстовых данных и создайте модель пакета слов.

Выполните маркировку текста.

documents = tokenizedDocument(textData);

Чтобы улучшить подгонку модели, удалите из документов знаки препинания и стоп-слова (такие как «и», «из» и «the»).

documents = removeStopWords(documents);
documents = erasePunctuation(documents);

Создание модели сумки слов.

bag = bagOfWords(documents);

Подогнать модель LDA

Поместите модель LDA с семью разделами, используя fitlda функция. Для подавления подробных выходных данных установите значение 'Verbose' опция для 0.

numTopics = 7;
mdl = fitlda(bag,numTopics,'Verbose',0);

Визуализация тем

Визуализируйте первые четыре раздела, используя облака слов.

figure
for topicIdx = 1:4
    subplot(2,2,topicIdx)
    wordcloud(mdl,topicIdx);
    title("Topic " + topicIdx)
end

Figure contains objects of type wordcloud. The chart of type wordcloud has title Topic 1. The chart of type wordcloud has title Topic 2. The chart of type wordcloud has title Topic 3. The chart of type wordcloud has title Topic 4.

В следующих шагах анализа текста можно попытаться улучшить вписывание модели, используя различные шаги предварительной обработки и визуализируя смеси тем. Пример см. в разделе Анализ текстовых данных с использованием тематических моделей.

См. также

Связанные темы

Документация по инструментам для анализа текста

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.