Datastore является объектом для чтения одного файла или набора файлов или данных. Datastore действует как репозиторий для данных, которые имеют ту же структуру и форматирование. Например, каждый файл в datastore должен содержать данные того же типа (такой как числовые или текст) появляющийся в том же порядке, и разделенный тем же разделителем.

Datastore полезен когда:
Каждый файл в наборе может быть слишком большим, чтобы уместиться в памяти. Datastore позволяет вам читать и анализировать данные из каждого файла в меньших фрагментах, которые действительно умещаются в памяти.
Файлы в наборе имеют произвольные имена. Datastore действует как репозиторий для файлов в одной или нескольких папках. Файлы не требуются, чтобы иметь последовательные имена.
Можно создать datastore на основе типа данных или приложения. Различные типы хранилищ данных содержат свойства, подходящие для типа данных, которые они поддерживают. Например, см. следующую таблицу для списка хранилищ данных MATLAB®. Для полного списка хранилищ данных смотрите, Выбирают Datastore for File Format или Application.
| Тип файла или данных | Тип хранилища данных |
|---|---|
| Текстовые файлы, содержащие данные в столбцах, включая файлы CSV. | TabularTextDatastore |
Файлы изображений, включая форматы, которые поддерживаются imread, таким как JPEG и PNG. | ImageDatastore |
Файлы электронной таблицы с поддерживаемым форматом Excel®, такие как .xlsx. | SpreadsheetDatastore |
Данные о паре "ключ-значение", которые являются входными параметрами к или выходными параметрами mapreduce. | KeyValueDatastore |
| Устелите паркетом файлы, содержащие данные в столбцах. | ParquetDatastore |
| Пользовательские форматы файлов. Требует обеспеченной функции для чтения данных. | FileDatastore |
Datastore для выгрузки массивов tall. | TallDatastore |
Используйте функцию tabularTextDatastore, чтобы создать datastore из файла примера airlinesmall.csv, который содержит информацию об отъезде и прибытии об отдельных полетах. Результатом является объект TabularTextDatastore.
ds = tabularTextDatastore('airlinesmall.csv')ds =
TabularTextDatastore with properties:
Files: {
' ...\matlab\toolbox\matlab\demos\airlinesmall.csv'
}
FileEncoding: 'UTF-8'
ReadVariableNames: true
VariableNames: {'Year', 'Month', 'DayofMonth' ... and 26 more}
Text Format Properties:
NumHeaderLines: 0
Delimiter: ','
RowDelimiter: '\r\n'
TreatAsMissing: ''
MissingValue: NaN
Advanced Text Format Properties:
TextscanFormats: {'%f', '%f', '%f' ... and 26 more}
ExponentCharacters: 'eEdD'
CommentStyle: ''
Whitespace: ' \b\t'
MultipleDelimitersAsOne: false
Properties that control the table returned by preview, read, readall:
SelectedVariableNames: {'Year', 'Month', 'DayofMonth' ... and 26 more}
SelectedFormats: {'%f', '%f', '%f' ... and 26 more}
ReadSize: 20000 rowsПосле создания datastore можно предварительно просмотреть данные, не имея необходимость загружать все это в память. Можно задать переменные (столбцы) интереса с помощью свойства SelectedVariableNames предварительно просмотреть или только для чтения те переменные.

ds.SelectedVariableNames = {'DepTime','DepDelay'};
preview(ds)ans =
DepTime DepDelay
_______ ________
642 12
1021 1
2055 20
1332 12
629 -1
1446 63
928 -2
859 -1 Можно задать значения в данных, которые представляют отсутствующие значения. В airlinesmall.csv отсутствующие значения представлены NA.
ds.TreatAsMissing = 'NA';Если все данные в datastore для переменных интереса умещаются в памяти, можно считать его с помощью функции readall.
T = readall(ds);
В противном случае считайте данные в меньших подмножествах, которые действительно умещаются в памяти, с помощью функции read. По умолчанию, read функционируют чтения от TabularTextDatastore 20 000 строк за один раз. Однако можно изменить это значение путем присвоения нового значения свойству ReadSize.
ds.ReadSize = 15000;
Сбросьте datastore к начальному состоянию перед перечитыванием, с помощью функции reset. Путем вызывания функции read в цикле while можно выполнить промежуточные вычисления на каждом подмножестве данных, и затем агрегировать промежуточные результаты в конце. Этот код вычисляет максимальное значение переменной DepDelay.
reset(ds) X = []; while hasdata(ds) T = read(ds); X(end+1) = max(T.DepDelay); end maxDelay = max(X)
maxDelay =
1438Если данные в каждом отдельном файле умещаются в памяти, можно указать, что каждый вызов read должен считать один полный файл, а не определенное количество строк.
reset(ds) ds.ReadSize = 'file'; X = []; while hasdata(ds) T = read(ds); X(end+1) = max(T.DepDelay); end maxDelay = max(X);
В дополнение к чтению подмножеств данных в datastore можно применить map и reduce функции к datastore с помощью mapreduce. Для получения дополнительной информации о MapReduce в MATLAB, смотрите Начало работы с MapReduce.
KeyValueDatastore | datastore | fileDatastore | imageDatastore | mapreduce | spreadsheetDatastore | tabularTextDatastore | tall