matlab.io.datastore.HadoopLocationBased class

Пакет: matlab.io.datastore

Добавьте поддержку Hadoop datastore

Описание

matlab.io.datastore.HadoopLocationBased абстрактный класс mixin, который добавляет Хэдупа^® поддержка данных, хранимых в файлах или другом не основанные на файле источники данных, такие как базы данных.

Чтобы использовать этот класс mixin, необходимо наследоваться matlab.io.datastore.HadoopLocationBased класс в дополнение к наследованию от matlab.io.Datastore базовый класс. Введите следующий синтаксис как первую линию вашего файла определения класса:

classdef MyDatastore < matlab.io.Datastore & ...
                             matlab.io.datastore.HadoopLocationBased 
    ...
end

Чтобы добавить поддержку Hadoop наряду с поддержкой параллельной обработки, используйте эти линии в своем файле определения класса:

classdef MyDatastore < matlab.io.Datastore & ...
                             matlab.io.datastore.Partitionable & ...
                             matlab.io.datastore.HadoopLocationBased 
    ...
end

Чтобы добавить поддержку Hadoop к вашему пользовательскому datastore, вы должны:

Наследуйте от дополнительного класса matlab.io.datastore.HadoopLocationBased
Задайте эти дополнительные методы: getLocation и initializeDatastore.

Для получения дополнительной информации и шаги, чтобы создать ваш пользовательский datastore с поддержкой Hadoop, смотрите, Разрабатывают Пользовательский Datastore.

Методы

`getLocation`	Местоположение в Hadoop
`initializeDatastore`	Инициализируйте datastore информацией от Hadoop
`isfullfile`	Проверяйте, читает ли datastore полные файлы

Атрибуты

Sealed false

Для получения информации об атрибутах класса см. Атрибуты класса.

Примеры

свернуть все

Создание Datastore с поддержкой Hadoop

Реализуйте datastore с параллельной обработкой и поддержкой Hadoop и используйте его, чтобы принести ваши данные из сервера Hadoop в MATLAB^®. Затем используйте tall и gather функции на этих данных.

Создайте новый .m файл определения класса, который содержит код, реализующий ваш пользовательский datastore. Необходимо сохранить этот файл в рабочей папке или в папке, которая находится на пути MATLAB. Имя .m файл должен совпасть с именем вашей функции конструктора Object. Например, если вы хотите, чтобы ваша функция конструктора имела имя MyDatastoreHadoop, затем именем файла скрипта должен быть MyDatastoreHadoop.m. .m файл определения класса должен содержать эти шаги:

Шаг 1: Наследуйтесь классам datastore.
Шаг 2: Задайте конструктора и требуемые методы.
Шаг 3: Задайте свою пользовательскую функцию чтения файла.

Этот код показывает три шага в демонстрационной реализации пользовательского datastore, который может считать двоичные файлы из сервера Hadoop.

%% STEP 1: INHERIT FROM DATASTORE CLASSES
classdef MyDatastoreHadoop < matlab.io.Datastore & ...
        matlab.io.datastore.Partitionable & ...
        matlab.io.datastore.HadoopLocationBased
    
    properties (Access = private)
        CurrentFileIndex double
        FileSet matlab.io.datastore.DsFileSet
    end

         
%% STEP 2: DEFINE THE CONSTRUCTOR AND THE REQUIRED METHODS
    methods
        % Define your datastore constructor
        function myds = MyDatastoreHadoop(location,altRoots)
            myds.FileSet = matlab.io.datastore.DsFileSet(location,...
                'FileExtensions','.bin', ...
                'FileSplitSize',8*1024);
            myds.CurrentFileIndex = 1;
             
            if nargin == 2
                 myds.AlternateFileSystemRoots = altRoots;
            end
            
            reset(myds);
        end
        
        % Define the hasdata method
        function tf = hasdata(myds)
            % Return true if more data is available
            tf = hasfile(myds.FileSet);
        end
        
        % Define the read method
        function [data,info] = read(myds)
            % Read data and information about the extracted data
            % See also: MyFileReader()
            if ~hasdata(myds)
                error(sprintf(['No more data to read.\nUse the reset ',... 
                     'method to reset the datastore to the start of ' ,...
                     'the data. \nBefore calling the read method, ',...
                     'check if data is available to read ',...
                     'by using the hasdata method.'])) 
            end
            
            fileInfoTbl = nextfile(myds.FileSet);
            data = MyFileReader(fileInfoTbl);
            info.Size = size(data);
            info.FileName = fileInfoTbl.FileName;
            info.Offset = fileInfoTbl.Offset;
            
            % Update CurrentFileIndex for tracking progress
            if fileInfoTbl.Offset + fileInfoTbl.SplitSize >= ...
                    fileInfoTbl.FileSize
                myds.CurrentFileIndex = myds.CurrentFileIndex + 1 ;
            end
        end
        
        % Define the reset method
        function reset(myds)
            % Reset to the start of the data
            reset(myds.FileSet);
            myds.CurrentFileIndex = 1;
        end
        
        
        % Define the partition method
        function subds = partition(myds,n,ii)
            subds = copy(myds);
            subds.FileSet = partition(myds.FileSet,n,ii);
            reset(subds);
        end
    end      

     
    methods (Hidden = true)   

        % Define the progress method
        function frac = progress(myds)
            % Determine percentage of data read from datastore
            if hasdata(myds) 
               frac = (myds.CurrentFileIndex-1)/...
                             myds.FileSet.NumFiles; 
            else 
               frac = 1;  
            end 
        end
 
        % Define the initializeDatastore method
        function initializeDatastore(myds,hadoopInfo)
            import matlab.io.datastore.DsFileSet;
            myds.FileSet = DsFileSet(hadoopInfo,...
                'FileSplitSize',myds.FileSet.FileSplitSize,...
                'IncludeSubfolders',true, ...
                'FileExtensions','.bin');
            reset(myds);
        end
        
        % Define the getLocation method
        function loc = getLocation(myds)
            loc = myds.FileSet;
        end
        
        % Define the isfullfile method
        function tf = isfullfile(~)
            tf = isequal(myds.FileSet.FileSplitSize,'file'); 
        end

    end
        
    methods (Access = protected)
        % If you use the  FileSet property in the datastore,
        % then you must define the copyElement method. The
        % copyElement method allows methods such as readall
        % and preview to remain stateless 
        function dscopy = copyElement(ds)
            dscopy = copyElement@matlab.mixin.Copyable(ds);
            dscopy.FileSet = copy(ds.FileSet);
        end
        
        % Define the maxpartitions method
        function n = maxpartitions(myds)
            n = maxpartitions(myds.FileSet);
        end
    end
end

%% STEP 3: IMPLEMENT YOUR CUSTOM FILE READING FUNCTION
function data = MyFileReader(fileInfoTbl)
% create a reader object using FileName
reader = matlab.io.datastore.DsFileReader(fileInfoTbl.FileName);

% seek to the offset
seek(reader,fileInfoTbl.Offset,'Origin','start-of-file');

% read fileInfoTbl.SplitSize amount of data
data = read(reader,fileInfoTbl.SplitSize);
end

Этот шаг завершает реализацию вашего пользовательского datastore.

Затем создайте объект datastore использование вашего пользовательского конструктора datastore. Если ваши данные расположены в hdfs:///path_to_files, затем можно использовать этот код.

setenv('HADOOP_HOME','/path/to/hadoop/install');
ds = MyDatastoreHadoop('hdfs:///path_to_files');

Использовать tall массивы и gather функция на Apache Spark™ с параллельной кластерной конфигурацией, набор mapreducer и присоедините MyDatastoreHadoop.m к кластеру.

mr = mapreducer(cluster);
mr.Cluster.AttachedFiles = 'MyDatastoreHadoop.m';

Создание длинного массива от datastore.

t = tall(ds);

Соберите главу длинного массива.

 hd = gather(head(t));

Темы

Добавление поддержки Hadoop
Используйте длинные массивы на Spark Enabled кластер Hadoop (Parallel Computing Toolbox)
Рабочий процесс Больших данных с использованием высоких массивов и хранилищ данных (Parallel Computing Toolbox)

Введенный в R2019a

Документация