Наборы данных для текстовой аналитики

Эта страница предоставляет список различных наборов данных, которые можно использовать, чтобы начать с текстовыми аналитическими приложениями.

Набор данныхОписаниеЗадача

Отчеты фабрики

Набор данных Отчетов Фабрики является таблицей, содержащей приблизительно 500 отчетов с различными атрибутами включая описание простого текста в переменной Description и категориальная метка в переменной Category.

Считайте данные об Отчетах Фабрики из файла "factoryReports.csv". Извлеките текстовые данные и метки от Description и Category столбцы, соответственно.

filename = "factoryReports.csv";
data = readtable(filename,'TextType','string');

textData = data.Description;
labels = data.Category;

Для примера, показывающего, как обработать эти данные для глубокого обучения, смотрите, Классифицируют текстовые Данные Используя Глубокое обучение (Deep Learning Toolbox).

Классификация текстов, моделирование темы

Сонеты Шекспира

Файл sonnets.txt содержит все сонеты Шекспира в одном текстовом файле.

Считайте данные о Сонетах Шекспира из файла "sonnets.txt".

filename = "sonnets.txt";
textData = extractFileText(filename);

Сонеты располагаются с отступом двумя пробельными символами и разделяются двумя символами новой строки. Удалите использование добавлений отступа replace и разделение текст в отдельное использование сонетов split. Удалите основной заголовок из первых трех элементов и заголовки сонета, которые появляются перед каждым сонетом.

textData = replace(textData,"  ","");
textData = split(textData,[newline newline]);
textData = textData(5:2:end);

Для примера, показывающего, как обработать эти данные для глубокого обучения, смотрите, Генерируют текст Используя Глубокое обучение (Deep Learning Toolbox).

Моделирование темы, текстовая генерация

Метаданные ArXiv

ArXiv API позволяет вам получать доступ к метаданным научной электронной печати, представленной https://arxiv.org включая абстрактные и предметные области. Для получения дополнительной информации см. https://arxiv.org/help/api.

Импортируйте набор кратких обзоров и подписей категорий из математических бумаг с помощью arXiV API.

url = "https://export.arxiv.org/oai2?verb=ListRecords" + ...
    "&set=math" + ...
    "&metadataPrefix=arXiv";
options = weboptions('Timeout',160);
code = webread(url,options);

Для примера, показывающего, как проанализировать возвращенный код XML и импортировать больше записей, смотрите, что Классификация Мультитекстов метки Использует Глубокое обучение.

Классификация текстов, моделирование темы

Книги из проекта Гутенберг

Можно загрузить много книг с Проекта Гутенберг. Например, загрузите текст с Алисы в Стране чудес Льюиса Кэрролла от https://www.gutenberg.org/files/11/11-h/11-h.htm с помощью webread функция.

url = "https://www.gutenberg.org/files/11/11-h/11-h.htm";
code = webread(url);

Код HTML содержит соответствующий текст в <p> (абзац) элементы. Извлеките соответствующий текст путем парсинга кода HTML с помощью htmlTree функционируйте и затем находящий все элементы с именем элемента "p".

tree = htmlTree(code);
selector = "p";
subtrees = findElement(tree,selector);

Извлеките текстовые данные из поддеревьев HTML с помощью extractHTMLText функционируйте и удалите пустые элементы.

textData = extractHTMLText(subtrees);
textData(textData == "") = [];

Для примера, показывающего, как обработать эти данные для глубокого обучения, смотрите Пословно текстовую Генерацию Используя Глубокое обучение.

Моделирование темы, текстовая генерация

Обновления выходных дней

Файл weekendUpdates.xlsx содержит обновления статуса социальных сетей в качестве примера, содержащие хэш-теги "#weekend" и "#vacation".

Извлеките текстовые данные из файла weekendUpdates.xlsx использование readtable функционируйте и извлеките текстовые данные из переменной TextData.

filename = "weekendUpdates.xlsx";
tbl = readtable(filename,'TextType','string');
textData = tbl.TextData;

Для примера, показывающего, как обработать эти данные, смотрите, Анализируют Чувство в тексте.

Анализ мнений

Римские цифры

Файл CSV "romanNumerals.csv" содержит десятичные числа 1–1000 в первом столбце и соответствующих Римских цифрах во втором столбце.

Загрузите пары десятичной Римской цифры из файла CSV "romanNumerals.csv".

filename = fullfile("romanNumerals.csv");

options = detectImportOptions(filename, ...
    'TextType','string', ...
    'ReadVariableNames',false);
options.VariableNames = ["Source" "Target"];
options.VariableTypes = ["string" "string"];

data = readtable(filename,options);

Для примера, показывающего, как обработать эти данные для глубокого обучения, смотрите, что Перевод От последовательности к последовательности Использует Внимание.

Перевод от последовательности к последовательности

Финансовые отчеты

Комиссия по ценным бумагам и биржам (SEC) позволяет вам финансовым отчетам доступа через Электронный Сбор данных, Анализ и Извлечение (EDGAR) API. Для получения дополнительной информации см. https://www.sec.gov/os/accessing-edgar-data.

Чтобы загрузить эти данные, используйте функциональный financeReports присоединенный к примеру Генерируют Зависящий от домена Словарь Чувства как вспомогательный файл. Чтобы получить доступ к этой функции, откройте пример как Live Script.

year = 2019;
qtr = 4;
maxLength = 2e6;
textData = financeReports(year,qtr,maxLength);

Для примера, показывающего, как обработать эти данные, смотрите, Генерируют Зависящий от домена Словарь Чувства.

Анализ мнений

Похожие темы

Для просмотра документации необходимо авторизоваться на сайте