Наборы данных для анализа текста

На этой странице представлен список различных наборов данных, которые можно использовать для начала работы с приложениями для анализа текста.

Набор данных Описание Задача

Набор данных	Описание	Задача
Заводские отчеты	Набор данных Factory Reports представляет собой таблицу, содержащую приблизительно 500 отчетов с различными атрибутами, включая описание в виде обычного текста в переменной. `Description` и категориальная метка в переменной `Category`. Считывание данных заводских отчетов из файла `"factoryReports.csv"`. Извлеките текстовые данные и метки из `Description` и `Category` соответственно. filename = "factoryReports.csv"; data = readtable(filename,'TextType','string'); textData = data.Description; labels = data.Category; Пример обработки этих данных для глубокого обучения см. в разделе Классификация текстовых данных с помощью глубокого обучения (панель инструментов глубокого обучения).	Классификация текста, моделирование тематики
Сонеты Шекспира	Файл `sonnets.txt` содержит все сонеты Шекспира в одном текстовом файле. Прочитать данные «Сонетов» Шекспира из файла `"sonnets.txt"`. filename = "sonnets.txt"; textData = extractFileText(filename); Сонеты разделяются двумя символами пробела и двумя символами новой строки. Удалить отступы с помощью `replace` и разбить текст на отдельные сонеты с помощью `split`. Удалите основной заголовок из первых трех элементов и названия сонета, которые появляются перед каждым сонетом. textData = replace(textData," ",""); textData = split(textData,[newline newline]); textData = textData(5:2:end); Пример обработки этих данных для глубокого обучения см. в разделе Создание текста с помощью глубокого обучения (панель инструментов глубокого обучения).	Тематическое моделирование, создание текста
Метаданные ArXiv	ArXiv API позволяет получить доступ к метаданным научных электронных принтов, представленных в https://arxiv.org, включая абстрактную и предметную области. Дополнительные сведения см. в разделе https://arxiv.org/help/api. Импорт набора аннотаций и меток категорий из математических документов с помощью API arXIV. url = "https://export.arxiv.org/oai2?verb=ListRecords" + ... "&set=math" + ... "&metadataPrefix=arXiv"; options = weboptions('Timeout',160); code = webread(url,options); Пример анализа возвращенного XML-кода и импорта дополнительных записей см. в разделе Классификация текста Multilabel с помощью глубокого обучения.	Классификация текста, моделирование тематики
Книги из проекта Гутенберг	Вы можете загрузить много книг из Project Gutenberg. Например, скачать текст из Alice's Adventures in Wonderland Льюиса Кэрролла из https://www.gutenberg.org/files/11/11-h/11-h.htm с помощью `webread` функция. url = "https://www.gutenberg.org/files/11/11-h/11-h.htm"; code = webread(url); HTML-код содержит соответствующий текст внутри `<p>` (параграф) элементы. Извлеките соответствующий текст, проанализировав HTML-код с помощью `htmlTree` функция, а затем поиск всех элементов с именем элемента `"p"`. tree = htmlTree(code); selector = "p"; subtrees = findElement(tree,selector); Извлеките текстовые данные из поддеревьев HTML с помощью `extractHTMLText` и удалите пустые элементы. textData = extractHTMLText(subtrees); textData(textData == "") = []; Пример обработки этих данных для глубокого обучения см. в разделе Создание текста по слову с помощью глубокого обучения.	Тематическое моделирование, создание текста
Обновления выходного дня	Файл `weekendUpdates.xlsx` Содержит примеры обновлений состояния социальных сетей, содержащих хэштеги «# weekend» и «# vacy». Извлечение текстовых данных из файла `weekendUpdates.xlsx` с использованием `readtable` функция и извлечение текстовых данных из переменной `TextData`. filename = "weekendUpdates.xlsx"; tbl = readtable(filename,'TextType','string'); textData = tbl.TextData; Пример обработки этих данных см. в разделе Анализ настроений в тексте.	Анализ настроений
Римские цифры	CSV-файл `"romanNumerals.csv"` содержит десятичные числа 1-1000 в первом столбце и соответствующие римские цифры во втором столбце. Загрузка десятичных-римских пар цифр из CSV-файла `"romanNumerals.csv"`. filename = fullfile("romanNumerals.csv"); options = detectImportOptions(filename, ... 'TextType','string', ... 'ReadVariableNames',false); options.VariableNames = ["Source" "Target"]; options.VariableTypes = ["string" "string"]; data = readtable(filename,options); Пример обработки этих данных для глубокого обучения см. в разделе Перевод последовательности в последовательность с использованием внимания.	Преобразование последовательности в последовательность
Финансовые отчеты	Комиссия по ценным бумагам и биржам (SEC) позволяет получать доступ к финансовым отчетам через API электронного сбора, анализа и извлечения данных (EDGAR). Дополнительные сведения см. в разделе https://www.sec.gov/edgar/searchedgar/accessing-edgar-data.htm. Для загрузки этих данных используйте функцию `financeReports` прилагается к примеру «Создать лексикон настроений, специфичных для домена» в качестве вспомогательного файла. Чтобы получить доступ к этой функции, откройте пример в виде сценария в реальном времени. year = 2019; qtr = 4; maxLength = 2e6; textData = financeReports(year,qtr,maxLength); Пример обработки этих данных см. в разделе Создание лексикона чувствительности для конкретного домена.	Анализ настроений

Заводские отчеты

Набор данных Factory Reports представляет собой таблицу, содержащую приблизительно 500 отчетов с различными атрибутами, включая описание в виде обычного текста в переменной. Description и категориальная метка в переменной Category.

Считывание данных заводских отчетов из файла "factoryReports.csv". Извлеките текстовые данные и метки из Description и Category соответственно.

filename = "factoryReports.csv";
data = readtable(filename,'TextType','string');

textData = data.Description;
labels = data.Category;

Пример обработки этих данных для глубокого обучения см. в разделе Классификация текстовых данных с помощью глубокого обучения (панель инструментов глубокого обучения).

Классификация текста, моделирование тематики

Сонеты Шекспира

Файл sonnets.txt содержит все сонеты Шекспира в одном текстовом файле.

Прочитать данные «Сонетов» Шекспира из файла "sonnets.txt".

filename = "sonnets.txt";
textData = extractFileText(filename);

Сонеты разделяются двумя символами пробела и двумя символами новой строки. Удалить отступы с помощью replace и разбить текст на отдельные сонеты с помощью split. Удалите основной заголовок из первых трех элементов и названия сонета, которые появляются перед каждым сонетом.

textData = replace(textData,"  ","");
textData = split(textData,[newline newline]);
textData = textData(5:2:end);

Пример обработки этих данных для глубокого обучения см. в разделе Создание текста с помощью глубокого обучения (панель инструментов глубокого обучения).

Тематическое моделирование, создание текста

Метаданные ArXiv

ArXiv API позволяет получить доступ к метаданным научных электронных принтов, представленных в https://arxiv.org, включая абстрактную и предметную области. Дополнительные сведения см. в разделе https://arxiv.org/help/api.

Импорт набора аннотаций и меток категорий из математических документов с помощью API arXIV.

url = "https://export.arxiv.org/oai2?verb=ListRecords" + ...
    "&set=math" + ...
    "&metadataPrefix=arXiv";
options = weboptions('Timeout',160);
code = webread(url,options);

Пример анализа возвращенного XML-кода и импорта дополнительных записей см. в разделе Классификация текста Multilabel с помощью глубокого обучения.

Классификация текста, моделирование тематики

Книги из проекта Гутенберг

Вы можете загрузить много книг из Project Gutenberg. Например, скачать текст из Alice's Adventures in Wonderland Льюиса Кэрролла из https://www.gutenberg.org/files/11/11-h/11-h.htm с помощью webread функция.

url = "https://www.gutenberg.org/files/11/11-h/11-h.htm";
code = webread(url);

HTML-код содержит соответствующий текст внутри <p> (параграф) элементы. Извлеките соответствующий текст, проанализировав HTML-код с помощью htmlTree функция, а затем поиск всех элементов с именем элемента "p".

tree = htmlTree(code);
selector = "p";
subtrees = findElement(tree,selector);

Извлеките текстовые данные из поддеревьев HTML с помощью extractHTMLText и удалите пустые элементы.

textData = extractHTMLText(subtrees);
textData(textData == "") = [];

Пример обработки этих данных для глубокого обучения см. в разделе Создание текста по слову с помощью глубокого обучения.

Тематическое моделирование, создание текста

Обновления выходного дня

Файл weekendUpdates.xlsx Содержит примеры обновлений состояния социальных сетей, содержащих хэштеги «# weekend» и «# vacy».

Извлечение текстовых данных из файла weekendUpdates.xlsx с использованием readtable функция и извлечение текстовых данных из переменной TextData.

filename = "weekendUpdates.xlsx";
tbl = readtable(filename,'TextType','string');
textData = tbl.TextData;

Пример обработки этих данных см. в разделе Анализ настроений в тексте.

Анализ настроений

Римские цифры

CSV-файл "romanNumerals.csv" содержит десятичные числа 1-1000 в первом столбце и соответствующие римские цифры во втором столбце.

Загрузка десятичных-римских пар цифр из CSV-файла "romanNumerals.csv".

filename = fullfile("romanNumerals.csv");

options = detectImportOptions(filename, ...
    'TextType','string', ...
    'ReadVariableNames',false);
options.VariableNames = ["Source" "Target"];
options.VariableTypes = ["string" "string"];

data = readtable(filename,options);

Пример обработки этих данных для глубокого обучения см. в разделе Перевод последовательности в последовательность с использованием внимания.

Преобразование последовательности в последовательность

Финансовые отчеты

Комиссия по ценным бумагам и биржам (SEC) позволяет получать доступ к финансовым отчетам через API электронного сбора, анализа и извлечения данных (EDGAR). Дополнительные сведения см. в разделе https://www.sec.gov/edgar/searchedgar/accessing-edgar-data.htm.

Для загрузки этих данных используйте функцию financeReports прилагается к примеру «Создать лексикон настроений, специфичных для домена» в качестве вспомогательного файла. Чтобы получить доступ к этой функции, откройте пример в виде сценария в реальном времени.

year = 2019;
qtr = 4;
maxLength = 2e6;
textData = financeReports(year,qtr,maxLength);

Пример обработки этих данных см. в разделе Создание лексикона чувствительности для конкретного домена.

Анализ настроений

Документация

Наборы данных для анализа текста

Связанные темы

Документация по инструментам для анализа текста

Поддержка