matlab.io.datastore.Partitionable класс

Пакет: matlab.io.datastore

Добавление поддержки параллелизма в хранилище данных

Описание

matlab.io.datastore.Partitionable является абстрактным смешанным классом, который добавляет поддержку параллелизации в пользовательское хранилище данных для использования с Parallel Computing Toolbox™ и MATLAB ® Parallel Server™.

Чтобы использовать этот класс mixin, необходимо наследовать от matlab.io.datastore.Partitionable класс, в дополнение к наследованию от matlab.io.Datastore базовый класс. Введите следующий синтаксис в качестве первой строки файла определения класса:

classdef MyDatastore < matlab.io.Datastore & ...
                       matlab.io.datastore.Partitionable
    ...
end

Чтобы добавить поддержку параллельной обработки в пользовательское хранилище данных, необходимо:

Наследовать от дополнительного класса matlab.io.datastore.Partitionable.
Определите следующие дополнительные методы: maxpartitions и partition.

Дополнительные сведения и шаги по созданию пользовательского хранилища данных с поддержкой параллельной обработки см. в разделе Разработка пользовательского хранилища данных.

Методы

`maxpartitions`	Максимально возможное количество разделов
`numpartitions`	Количество разделов по умолчанию
`partition`	Разделение хранилища данных

Признаки

Sealed false

Сведения об атрибутах класса см. в разделе Атрибуты класса.

Примеры

свернуть все

Создание хранилища данных с поддержкой параллельной обработки

Открыть сценарий

Создайте хранилище данных с поддержкой параллельной обработки и используйте его для переноса пользовательских или собственных данных в MATLAB ®. Затем обработайте данные в параллельном пуле.

Создать .m файл определения класса, содержащий код, реализующий пользовательское хранилище данных. Этот файл необходимо сохранить в рабочей папке или в папке по пути MATLAB ®. Имя .m файл должен совпадать с именем функции конструктора объекта. Например, если необходимо, чтобы функция конструктора имела имя MyDatasturePar, то имя .m файл должен быть MyDatastorePar.m. .m файл определения класса должен содержать следующие шаги:

Шаг 1. Наследование из классов хранилища данных.
Шаг 2: Определение конструктора и требуемых методов.
Шаг 3: Определите пользовательскую функцию чтения файлов.

В дополнение к этим шагам определите любые другие свойства или методы, необходимые для обработки и анализа данных.

%% STEP 1: INHERIT FROM DATASTORE CLASSES
classdef MyDatastorePar < matlab.io.Datastore & ...
        matlab.io.datastore.Partitionable
   
    properties(Access = private)
        CurrentFileIndex double
        FileSet matlab.io.datastore.DsFileSet
    end
    
    % Property to support saving, loading, and processing of
    % datastore on different file system machines or clusters.
    % In addition, define the methods get.AlternateFileSystemRoots()
    % and set.AlternateFileSystemRoots() in the methods section. 
    properties(Dependent)
        AlternateFileSystemRoots
    end
    
%% STEP 2: DEFINE THE CONSTRUCTOR AND THE REQUIRED METHODS
    methods
        % Define your datastore constructor
        function myds = MyDatastorePar(location,altRoots)
            myds.FileSet = matlab.io.datastore.DsFileSet(location,...
                'FileExtensions','.bin', ...
                'FileSplitSize',8*1024);
            myds.CurrentFileIndex = 1;
             
            if nargin == 2
                 myds.AlternateFileSystemRoots = altRoots;
            end
            
            reset(myds);
        end
        
        % Define the hasdata method
        function tf = hasdata(myds)
            % Return true if more data is available
            tf = hasfile(myds.FileSet);
        end
        
        % Define the read method
        function [data,info] = read(myds)
            % Read data and information about the extracted data
            % See also: MyFileReader()
            if ~hasdata(myds)
                msgII = ['Use the reset method to reset the datastore ',... 
                         'to the start of the data.']; 
                msgIII = ['Before calling the read method, ',...
                          'check if data is available to read ',...
                          'by using the hasdata method.'];
                error('No more data to read.\n%s\n%s',msgII,msgIII);
            end
            
            fileInfoTbl = nextfile(myds.FileSet);
            data = MyFileReader(fileInfoTbl);
            info.Size = size(data);
            info.FileName = fileInfoTbl.FileName;
            info.Offset = fileInfoTbl.Offset;
            
            % Update CurrentFileIndex for tracking progress
            if fileInfoTbl.Offset + fileInfoTbl.SplitSize >= ...
                    fileInfoTbl.FileSize
                myds.CurrentFileIndex = myds.CurrentFileIndex + 1 ;
            end
        end
        
        % Define the reset method
        function reset(myds)
            % Reset to the start of the data
            reset(myds.FileSet);
            myds.CurrentFileIndex = 1;
        end

        % Define the partition method
        function subds = partition(myds,n,ii)
            subds = copy(myds);
            subds.FileSet = partition(myds.FileSet,n,ii);
            reset(subds);
        end
        
        % Getter for AlternateFileSystemRoots property
        function altRoots = get.AlternateFileSystemRoots(myds)
            altRoots = myds.FileSet.AlternateFileSystemRoots;
        end

        % Setter for AlternateFileSystemRoots property
        function set.AlternateFileSystemRoots(myds,altRoots)
            try
              % The DsFileSet object manages AlternateFileSystemRoots
              % for your datastore
              myds.FileSet.AlternateFileSystemRoots = altRoots;

              % Reset the datastore
              reset(myds);  
            catch ME
              throw(ME);
            end
        end
      
    end
    
    methods (Hidden = true)          
        % Define the progress method
        function frac = progress(myds)
            % Determine percentage of data read from datastore
            if hasdata(myds) 
               frac = (myds.CurrentFileIndex-1)/...
                             myds.FileSet.NumFiles; 
            else 
               frac = 1;  
            end 
        end
    end
    
    methods(Access = protected)
        % If you use the  FileSet property in the datastore,
        % then you must define the copyElement method. The
        % copyElement method allows methods such as readall
        % and preview to remain stateless 
        function dscopy = copyElement(ds)
            dscopy = copyElement@matlab.mixin.Copyable(ds);
            dscopy.FileSet = copy(ds.FileSet);
        end
        
        % Define the maxpartitions method
        function n = maxpartitions(myds)
            n = maxpartitions(myds.FileSet);
        end
    end
end

%% STEP 3: IMPLEMENT YOUR CUSTOM FILE READING FUNCTION
function data = MyFileReader(fileInfoTbl)
% create a reader object using FileName
reader = matlab.io.datastore.DsFileReader(fileInfoTbl.FileName);

% seek to the offset
seek(reader,fileInfoTbl.Offset,'Origin','start-of-file');

% read fileInfoTbl.SplitSize amount of data
data = read(reader,fileInfoTbl.SplitSize);

end

Пользовательское хранилище данных готово. Пользовательское хранилище данных используется для чтения и обработки данных в параллельном пуле.

Чтение данных с помощью пользовательского хранилища данных и процесса в параллельном пуле

Открыть сценарий в реальном времени

Используйте пользовательское хранилище данных для предварительного просмотра и чтения собственных данных в MATLAB для параллельной обработки.

В этом примере для иллюстрации рабочего процесса с использованием пользовательского хранилища данных используется простой набор данных. Набор данных представляет собой коллекцию из 15 двоичных (.bin) файлы, в которых каждый файл содержит столбец (1 переменная) и 10000 строк (записей) неподписанных целых чисел.

dir('*.bin')

binary_data01.bin  binary_data05.bin  binary_data09.bin  binary_data13.bin  
binary_data02.bin  binary_data06.bin  binary_data10.bin  binary_data14.bin  
binary_data03.bin  binary_data07.bin  binary_data11.bin  binary_data15.bin  
binary_data04.bin  binary_data08.bin  binary_data12.bin

Создание объекта хранилища данных с помощью MyDatastorePar функция. Для получения подробной информации о реализации MyDatastorePar, см. пример Создание хранилища данных с поддержкой параллельной обработки.

folder = fullfile('*.bin'); 
ds = MyDatastorePar(folder);

Предварительный просмотр данных из хранилища данных.

preview(ds)

ans = 8x1 uint8 column vector

   113
   180
   251
    91
    29
    66
   254
   214

Укажите количество разделов для хранилища данных. При наличии панели инструментов параллельных вычислений (PCT) можно использовать n = numpartitions(ds,myPool), где myPool является gcp или parpool.

n = numpartitions(ds);

Разбиение хранилища данных на n частей и n работники в параллельном пуле.

parfor ii = 1:n
    subds = partition(ds,n,ii);
      while hasdata(subds)
        data = read(subds);
        % do something
      end
end

Хранилище данных процесса на различных платформах

Для обработки хранилища данных с параллельными и распределенными вычислениями, включающими различные облачные или кластерные компьютеры, необходимо предварительно определить 'AlternateFileSystemRoots' параметр. Например, создайте хранилище данных на локальном компьютере и проанализируйте небольшую часть данных. Затем увеличьте масштаб анализа до всего набора данных с помощью Parallel Computing Toolbox и MATLAB Parallel Server.

Создание хранилища данных с помощью MyDatastorePar и присвойте значение 'AlternateFileSystemRoots' собственность. Для получения подробной информации о реализации MyDatastorePar, см. пример Build Datastore with Parallel Processing Support.

Установка значения для 'AlternateFileSystemRoots' определите корневые пути для данных на различных платформах. Корневые пути различаются в зависимости от компьютера или файловой системы. Например, при доступе к данным с помощью следующих корневых путей:

"Z:\DataSet" с компьютера Windows ®.
"/nfs-bldg001/DataSet" из кластера MATLAB Parallel Server Linux ®.

Затем свяжите эти корневые пути с помощью AlternateFileSystemRoots собственность.

altRoots = ["Z:\DataSet","/nfs-bldg001/DataSet"];
ds = MyDatastorePar('Z:\DataSet',altRoots);

Проанализируйте небольшую часть данных на локальном компьютере. Например, получить секционированное подмножество данных и очистить данные, удалив все отсутствующие записи. Затем изучите график переменных.

tt = tall(partition(ds,100,1)); 
summary(tt); 
% analyze your data                        
tt = rmmissing(tt);               
plot(tt.MyVar1,tt.MyVar2)

Увеличьте масштаб анализа до всего набора данных с помощью кластера MATLAB Parallel Server (кластер Linux). Например, запустите рабочий пул, используя профиль кластера, а затем выполните анализ всего набора данных, используя возможности параллельных и распределенных вычислений.

parpool('MyMjsProfile') 
tt = tall(ds);          
summary(tt);
% analyze your data
tt = rmmissing(tt);               
plot(tt.MyVar1,tt.MyVar2)

Совет

Для пользовательской реализации хранилища данных рекомендуется не внедрять numpartitions способ.

См. также

datastore | mapreduce | matlab.io.Datastore | matlab.io.datastore.HadoopLocationBased

Темы

Разработка пользовательского хранилища данных
Массивы Tall для данных без памяти
Секционирование хранилища данных параллельно инструментов параллельных вычислений)

Представлен в R2017b

Документация