Эта страница содержит список различных наборов данных, которые можно использовать для начала работы с приложениями текстовой аналитики.
Набор данных | Описание | Задача |
---|---|---|
Заводские отчеты
| Набор данных Factory Reports представляет собой таблицу, содержащую приблизительно 500 отчетов с различными атрибутами, включая описание простого текста в переменной Считайте данные заводских отчетов из файла filename = "factoryReports.csv"; data = readtable(filename,'TextType','string'); textData = data.Description; labels = data.Category; Пример, показывающий, как обработать эти данные для глубокого обучения, см. в разделе «Классификация текстовых данных с использованием глубокого обучения» (Deep Learning Toolbox). |
Классификация текста, моделирование темы |
Сонеты Шекспира
| Файл Считайте данные Sonnets Шекспира из файла filename = "sonnets.txt";
textData = extractFileText(filename);
Сонеты изрезаны двумя пробелами и разделены двумя символами новой строки. Удалите углубления с помощью textData = replace(textData," ",""); textData = split(textData,[newline newline]); textData = textData(5:2:end); Пример, показывающий, как обработать эти данные для глубокого обучения, см. в разделе «Генерация текста с помощью глубокого обучения» (Deep Learning Toolbox). |
Моделирование тем, генерация текста |
Метаданные ArXiv
| API ArXiv позволяет вам получить доступ к метаданным научных электронных отпечатков, представленных в https://arxiv.org, включая абстрактные и предметные области. Для получения дополнительной информации смотрите https://arxiv.org/help/api. Импортируйте набор тезисов и меток категорий из математических документов с помощью arXiV API. url = "https://export.arxiv.org/oai2?verb=ListRecords" + ... "&set=math" + ... "&metadataPrefix=arXiv"; options = weboptions('Timeout',160); code = webread(url,options); Для примера, показывающего, как проанализировать возвращенные XML- код и импортировать больше записей, смотрите Мультиметку Классификация текста с использованием Глубокого обучения. |
Классификация текста, моделирование темы |
Книги из Project Gutenberg
| Вы можете скачать много книг из Project Gutenberg. Например, скачать текст из Alice's Adventures in Wonderland Льюиса Кэрролла из https://www.gutenberg.org/files/11/11-h/11-h.htm используя url = "https://www.gutenberg.org/files/11/11-h/11-h.htm";
code = webread(url); HTML кода содержит соответствующий текст внутри tree = htmlTree(code);
selector = "p";
subtrees = findElement(tree,selector); Извлеките текстовые данные из HTML с помощью textData = extractHTMLText(subtrees);
textData(textData == "") = []; Пример, показывающий, как обработать эти данные для глубокого обучения, см. в Word-By-Word Text Generation Using Deep Learning. |
Моделирование тем, генерация текста |
Обновления выходного дня
| Файл Извлеките текстовые данные из файла filename = "weekendUpdates.xlsx"; tbl = readtable(filename,'TextType','string'); textData = tbl.TextData; Пример обработки этих данных см. в разделе Анализ характеристик в тексте. |
Анализ настроений |
Римские числа
| Файл CSV Загрузите десятичные-римские числовые пары из файла CSV filename = fullfile("romanNumerals.csv"); options = detectImportOptions(filename, ... 'TextType','string', ... 'ReadVariableNames',false); options.VariableNames = ["Source" "Target"]; options.VariableTypes = ["string" "string"]; data = readtable(filename,options); Для примера, показывающего, как обработать эти данные для глубокого обучения, смотрите Перевод последовательности в последовательность с использованием внимания. |
Перемещение последовательности в последовательность |
Финансовые отчеты
|
Комиссия по ценным бумагам и биржам (SEC) позволяет вам получить доступ к финансовым отчетам через электронный API сбора, анализа и извлечения данных (EDGAR). Для получения дополнительной информации смотрите https://www.sec.gov/edgar/searchedgar/accessing-edgar-data.htm. Чтобы загрузить эти данные, используйте функцию year = 2019; qtr = 4; maxLength = 2e6; textData = financeReports(year,qtr,maxLength); Для примера, показывающего, как обработать эти данные, смотрите Generate Domain Specific Sentiment Lexicon. |
Анализ настроений |