Наборы данных для текстовой аналитики

Эта страница содержит список различных наборов данных, которые можно использовать для начала работы с приложениями текстовой аналитики.

Набор данныхОписаниеЗадача

Заводские отчеты

Набор данных Factory Reports представляет собой таблицу, содержащую приблизительно 500 отчетов с различными атрибутами, включая описание простого текста в переменной Description и категориальную метку в переменной Category.

Считайте данные заводских отчетов из файла "factoryReports.csv". Извлечение текстовых данных и меток из Description и Category столбцы, соответственно.

filename = "factoryReports.csv";
data = readtable(filename,'TextType','string');

textData = data.Description;
labels = data.Category;

Пример, показывающий, как обработать эти данные для глубокого обучения, см. в разделе «Классификация текстовых данных с использованием глубокого обучения» (Deep Learning Toolbox).

Классификация текста, моделирование темы

Сонеты Шекспира

Файл sonnets.txt содержит все сонеты Шекспира в одном текстовом файле.

Считайте данные Sonnets Шекспира из файла "sonnets.txt".

filename = "sonnets.txt";
textData = extractFileText(filename);

Сонеты изрезаны двумя пробелами и разделены двумя символами новой строки. Удалите углубления с помощью replace и разделите текст на отдельные сонеты, используя split. Удалите основной заголовок из первых трех элементов и заголовки сонетов, которые появляются перед каждым сонетом.

textData = replace(textData,"  ","");
textData = split(textData,[newline newline]);
textData = textData(5:2:end);

Пример, показывающий, как обработать эти данные для глубокого обучения, см. в разделе «Генерация текста с помощью глубокого обучения» (Deep Learning Toolbox).

Моделирование тем, генерация текста

Метаданные ArXiv

API ArXiv позволяет вам получить доступ к метаданным научных электронных отпечатков, представленных в https://arxiv.org, включая абстрактные и предметные области. Для получения дополнительной информации смотрите https://arxiv.org/help/api.

Импортируйте набор тезисов и меток категорий из математических документов с помощью arXiV API.

url = "https://export.arxiv.org/oai2?verb=ListRecords" + ...
    "&set=math" + ...
    "&metadataPrefix=arXiv";
options = weboptions('Timeout',160);
code = webread(url,options);

Для примера, показывающего, как проанализировать возвращенные XML- код и импортировать больше записей, смотрите Мультиметку Классификация текста с использованием Глубокого обучения.

Классификация текста, моделирование темы

Книги из Project Gutenberg

Вы можете скачать много книг из Project Gutenberg. Например, скачать текст из Alice's Adventures in Wonderland Льюиса Кэрролла из https://www.gutenberg.org/files/11/11-h/11-h.htm используя webread функция.

url = "https://www.gutenberg.org/files/11/11-h/11-h.htm";
code = webread(url);

HTML кода содержит соответствующий текст внутри <p> (абзац) элементы. Извлеките соответствующий текст путем разбора HTML кода используя htmlTree а затем найти все элементы с именем элемента "p".

tree = htmlTree(code);
selector = "p";
subtrees = findElement(tree,selector);

Извлеките текстовые данные из HTML с помощью extractHTMLText и удалите пустые элементы.

textData = extractHTMLText(subtrees);
textData(textData == "") = [];

Пример, показывающий, как обработать эти данные для глубокого обучения, см. в Word-By-Word Text Generation Using Deep Learning.

Моделирование тем, генерация текста

Обновления выходного дня

Файл weekendUpdates.xlsx содержит примеры обновлений статуса социальных сетей, содержащих хэштеги «# weekend» и «# vacation».

Извлеките текстовые данные из файла weekendUpdates.xlsx использование readtable и извлеките текстовые данные из переменной TextData.

filename = "weekendUpdates.xlsx";
tbl = readtable(filename,'TextType','string');
textData = tbl.TextData;

Пример обработки этих данных см. в разделе Анализ характеристик в тексте.

Анализ настроений

Римские числа

Файл CSV "romanNumerals.csv" содержит десятичные числа 1-1000 в первом столбце и соответствующие римские цифры во втором столбце.

Загрузите десятичные-римские числовые пары из файла CSV "romanNumerals.csv".

filename = fullfile("romanNumerals.csv");

options = detectImportOptions(filename, ...
    'TextType','string', ...
    'ReadVariableNames',false);
options.VariableNames = ["Source" "Target"];
options.VariableTypes = ["string" "string"];

data = readtable(filename,options);

Для примера, показывающего, как обработать эти данные для глубокого обучения, смотрите Перевод последовательности в последовательность с использованием внимания.

Перемещение последовательности в последовательность

Финансовые отчеты

Комиссия по ценным бумагам и биржам (SEC) позволяет вам получить доступ к финансовым отчетам через электронный API сбора, анализа и извлечения данных (EDGAR). Для получения дополнительной информации смотрите https://www.sec.gov/edgar/searchedgar/accessing-edgar-data.htm.

Чтобы загрузить эти данные, используйте функцию financeReports присоединенный к примеру Generate Domain Specific Sentiment Lexicon как вспомогательный файл. Чтобы получить доступ к этой функции, откройте пример как Live Script.

year = 2019;
qtr = 4;
maxLength = 2e6;
textData = financeReports(year,qtr,maxLength);

Для примера, показывающего, как обработать эти данные, смотрите Generate Domain Specific Sentiment Lexicon.

Анализ настроений

Похожие темы