На этой странице представлен список различных наборов данных, которые можно использовать для начала работы с приложениями для анализа текста.
| Набор данных | Описание | Задача |
|---|---|---|
|
Заводские отчеты
| Набор данных Factory Reports представляет собой таблицу, содержащую приблизительно 500 отчетов с различными атрибутами, включая описание в виде обычного текста в переменной. Считывание данных заводских отчетов из файла filename = "factoryReports.csv"; data = readtable(filename,'TextType','string'); textData = data.Description; labels = data.Category; Пример обработки этих данных для глубокого обучения см. в разделе Классификация текстовых данных с помощью глубокого обучения (панель инструментов глубокого обучения). |
Классификация текста, моделирование тематики |
|
Сонеты Шекспира
| Файл Прочитать данные «Сонетов» Шекспира из файла filename = "sonnets.txt";
textData = extractFileText(filename);
Сонеты разделяются двумя символами пробела и двумя символами новой строки. Удалить отступы с помощью textData = replace(textData," ",""); textData = split(textData,[newline newline]); textData = textData(5:2:end); Пример обработки этих данных для глубокого обучения см. в разделе Создание текста с помощью глубокого обучения (панель инструментов глубокого обучения). |
Тематическое моделирование, создание текста |
|
Метаданные ArXiv
| ArXiv API позволяет получить доступ к метаданным научных электронных принтов, представленных в https://arxiv.org, включая абстрактную и предметную области. Дополнительные сведения см. в разделе https://arxiv.org/help/api. Импорт набора аннотаций и меток категорий из математических документов с помощью API arXIV. url = "https://export.arxiv.org/oai2?verb=ListRecords" + ... "&set=math" + ... "&metadataPrefix=arXiv"; options = weboptions('Timeout',160); code = webread(url,options); Пример анализа возвращенного XML-кода и импорта дополнительных записей см. в разделе Классификация текста Multilabel с помощью глубокого обучения. |
Классификация текста, моделирование тематики |
|
Книги из проекта Гутенберг
| Вы можете загрузить много книг из Project Gutenberg. Например, скачать текст из Alice's Adventures in Wonderland Льюиса Кэрролла из https://www.gutenberg.org/files/11/11-h/11-h.htm с помощью url = "https://www.gutenberg.org/files/11/11-h/11-h.htm";
code = webread(url);HTML-код содержит соответствующий текст внутри tree = htmlTree(code);
selector = "p";
subtrees = findElement(tree,selector);Извлеките текстовые данные из поддеревьев HTML с помощью textData = extractHTMLText(subtrees);
textData(textData == "") = [];Пример обработки этих данных для глубокого обучения см. в разделе Создание текста по слову с помощью глубокого обучения. |
Тематическое моделирование, создание текста |
|
Обновления выходного дня
| Файл Извлечение текстовых данных из файла filename = "weekendUpdates.xlsx"; tbl = readtable(filename,'TextType','string'); textData = tbl.TextData; Пример обработки этих данных см. в разделе Анализ настроений в тексте. |
Анализ настроений |
|
Римские цифры
| CSV-файл Загрузка десятичных-римских пар цифр из CSV-файла filename = fullfile("romanNumerals.csv"); options = detectImportOptions(filename, ... 'TextType','string', ... 'ReadVariableNames',false); options.VariableNames = ["Source" "Target"]; options.VariableTypes = ["string" "string"]; data = readtable(filename,options); Пример обработки этих данных для глубокого обучения см. в разделе Перевод последовательности в последовательность с использованием внимания. |
Преобразование последовательности в последовательность |
|
Финансовые отчеты
|
Комиссия по ценным бумагам и биржам (SEC) позволяет получать доступ к финансовым отчетам через API электронного сбора, анализа и извлечения данных (EDGAR). Дополнительные сведения см. в разделе https://www.sec.gov/edgar/searchedgar/accessing-edgar-data.htm. Для загрузки этих данных используйте функцию year = 2019; qtr = 4; maxLength = 2e6; textData = financeReports(year,qtr,maxLength); Пример обработки этих данных см. в разделе Создание лексикона чувствительности для конкретного домена. |
Анализ настроений |