Эта страница предоставляет список различных наборов данных, которые можно использовать, чтобы начать с текстовыми аналитическими приложениями.
Набор данных | Описание | Задача |
---|---|---|
Отчеты фабрики
| Набор данных Отчетов Фабрики является таблицей, содержащей приблизительно 500 отчетов с различными атрибутами включая описание простого текста в переменной Считайте данные об Отчетах Фабрики из файла filename = "factoryReports.csv"; data = readtable(filename,'TextType','string'); textData = data.Description; labels = data.Category; Для примера, показывающего, как обработать эти данные для глубокого обучения, смотрите, Классифицируют текстовые Данные Используя Глубокое обучение (Deep Learning Toolbox). |
Классификация текстов, моделирование темы |
Сонеты Шекспира
| Файл Считайте данные о Сонетах Шекспира из файла filename = "sonnets.txt";
textData = extractFileText(filename);
Сонеты располагаются с отступом двумя пробельными символами и разделяются двумя символами новой строки. Удалите использование добавлений отступа textData = replace(textData," ",""); textData = split(textData,[newline newline]); textData = textData(5:2:end); Для примера, показывающего, как обработать эти данные для глубокого обучения, смотрите, Генерируют текст Используя Глубокое обучение (Deep Learning Toolbox). |
Моделирование темы, текстовая генерация |
Метаданные ArXiv
| ArXiv API позволяет вам получать доступ к метаданным научной электронной печати, представленной https://arxiv.org включая абстрактные и предметные области. Для получения дополнительной информации см. https://arxiv.org/help/api. Импортируйте набор кратких обзоров и подписей категорий из математических бумаг с помощью arXiV API. url = "https://export.arxiv.org/oai2?verb=ListRecords" + ... "&set=math" + ... "&metadataPrefix=arXiv"; options = weboptions('Timeout',160); code = webread(url,options); Для примера, показывающего, как проанализировать возвращенный код XML и импортировать больше записей, смотрите, что Классификация Мультитекстов метки Использует Глубокое обучение. |
Классификация текстов, моделирование темы |
Книги из проекта Гутенберг
| Можно загрузить много книг с Проекта Гутенберг. Например, загрузите текст с Алисы в Стране чудес Льюиса Кэрролла от https://www.gutenberg.org/files/11/11-h/11-h.htm с помощью url = "https://www.gutenberg.org/files/11/11-h/11-h.htm";
code = webread(url); Код HTML содержит соответствующий текст в tree = htmlTree(code);
selector = "p";
subtrees = findElement(tree,selector); Извлеките текстовые данные из поддеревьев HTML с помощью textData = extractHTMLText(subtrees);
textData(textData == "") = []; Для примера, показывающего, как обработать эти данные для глубокого обучения, смотрите Пословно текстовую Генерацию Используя Глубокое обучение. |
Моделирование темы, текстовая генерация |
Обновления выходных дней
| Файл Извлеките текстовые данные из файла filename = "weekendUpdates.xlsx"; tbl = readtable(filename,'TextType','string'); textData = tbl.TextData; Для примера, показывающего, как обработать эти данные, смотрите, Анализируют Чувство в тексте. |
Анализ мнений |
Римские цифры
| Файл CSV Загрузите пары десятичной Римской цифры из файла CSV filename = fullfile("romanNumerals.csv"); options = detectImportOptions(filename, ... 'TextType','string', ... 'ReadVariableNames',false); options.VariableNames = ["Source" "Target"]; options.VariableTypes = ["string" "string"]; data = readtable(filename,options); Для примера, показывающего, как обработать эти данные для глубокого обучения, смотрите, что Перевод От последовательности к последовательности Использует Внимание. |
Перевод от последовательности к последовательности |
Финансовые отчеты
|
Комиссия по ценным бумагам и биржам (SEC) позволяет вам финансовым отчетам доступа через Электронный Сбор данных, Анализ и Извлечение (EDGAR) API. Для получения дополнительной информации см. https://www.sec.gov/os/accessing-edgar-data. Чтобы загрузить эти данные, используйте функциональный year = 2019; qtr = 4; maxLength = 2e6; textData = financeReports(year,qtr,maxLength); Для примера, показывающего, как обработать эти данные, смотрите, Генерируют Зависящий от домена Словарь Чувства. |
Анализ мнений |