parquetinfo

Получите информацию о файле Parquet

Описание

ParquetInfo объекты содержат информацию о файле Parquet, таком как: размер файла, имена переменных и типы, кодирование и схемы сжатия. Чтобы получить информацию о файле Parquet, создайте ParquetInfo объект с помощью parquetinfo функция.

Создание

Описание

пример

info = parquetinfo(filename) возвращает info объект для файла Parquet задан filename.

Входные параметры

развернуть все

Имя файла Parquet в виде вектора символов или строкового скаляра. ParquetInfo работает с Паркетом 1.0 или Паркетом 2,0 файла.

В зависимости от местоположения файла, filename может взять одну из следующих форм.

Местоположение

Форма

Текущая папка или папка на пути MATLAB®

Задайте имя файла в filename.

Пример: 'data.parquet'

Файл в папке

Если файл не находится в текущей папке или в папке на пути MATLAB, то задайте полное имя или относительный путь.

Пример: 'C:\myFolder\data.parquet'

Пример: 'myDir\myFile.ext'

Удаленное местоположение

Если файл хранится в удаленном местоположении, то filename должен содержать полный путь файла, заданного как универсальный локатор ресурса (URL) формы:

scheme_name://path_to_file/my_file.ext

На основе вашего удаленного местоположения, scheme_name может быть одно из значений в этой таблице.

Удаленное местоположениеscheme_name
Amazon S3™s3
Устройство хранения данных Windows Azure® Blobwasb, wasbs
HDFS™hdfs

Для получения дополнительной информации смотрите работу с Удаленными данными.

Пример: 's3://bucketname/path_to_file/data.parquet'

Типы данных: char | string

Свойства

развернуть все

Это свойство доступно только для чтения.

Абсолютный путь к файлу Parquet в виде строкового скаляра.

Типы данных: string

Это свойство доступно только для чтения.

Размер файла в байтах в виде double.

Типы данных: double

Это свойство доступно только для чтения.

Количество групп строки в виде double.

Типы данных: double

Это свойство доступно только для чтения.

Количество строк в каждой группе строки в виде double.

Типы данных: double

Это свойство доступно только для чтения.

Имена переменных в виде массива строк. Если файл Parquet содержит N переменные, затем VariableNames массив размера 1- N содержа имена переменных.

Типы данных: string

Это свойство доступно только для чтения.

Типы данных переменных в виде массива строк. Если файл Parquet содержит N переменные, затем VariableTypes массив размера 1- N содержа имена типов данных для каждой переменной. Каждым элементом в массиве является имя типа данных MATLAB, с которым соответствующая переменная в файле Parquet сопоставляет.

Типы данных: string

Это свойство доступно только для чтения.

Переменный алгоритм сжатия в виде массива строк. Если файл Parquet содержит N переменные, затем VariableCompression массив размера 1- N содержа имена алгоритма сжатия. Каждый элемент в массиве соответствует алгоритму сжатия, используемому, чтобы сжать ту переменную в файле Parquet. Смотрите parquetwrite для списка поддерживаемых алгоритмов сжатия.

Типы данных: string

Это свойство доступно только для чтения.

Переменное кодирование в виде массива строк. Если файл Parquet содержит N переменные, затем VariableEncoding массив размера 1- N содержа имена схемы кодирования. Каждый элемент в массиве соответствует схеме кодирования, используемой, чтобы закодировать ту переменную в файле Parquet. Смотрите parquetwrite для списка поддерживаемой кодировки.

Типы данных: string

Это свойство доступно только для чтения.

Устелите паркетом версию в виде любого "1.0" или "2.0".

Типы данных: string

Примеры

свернуть все

Используйте praquetinfo функция, чтобы создать ParquetInfo объект, содержащий информацию о файле.

info = parquetinfo('outages.parquet')
info = 
  ParquetInfo with properties:

               Filename: "/mathworks/devel/bat/BR2020ad/build/matlab/toolbox/matlab/demos/outages.parquet"
               FileSize: 44202
           NumRowGroups: 1
        RowGroupHeights: 1468
          VariableNames: [1x6 string]
          VariableTypes: [1x6 string]
    VariableCompression: [1x6 string]
       VariableEncoding: [1x6 string]
                Version: "2.0"

Отобразите имя, введите, и схема сжатия для третьей переменной в файле.

disp([info.VariableNames(3)  info.VariableTypes(3) info.VariableCompression(3)]) 
    "Loss"    "double"    "snappy"

Введенный в R2019a