parquetinfo

Получите информацию о файле Parquet

Описание

ParquetInfo объекты содержат информацию о файле Parquet, таком как: размер файла, имена переменных и типы, кодирование и схемы сжатия. Чтобы получить информацию о файле Parquet, создайте ParquetInfo объект с помощью parquetinfo функция.

Создание

Описание

пример

info = parquetinfo(filename) возвращает info объект для файла Parquet задан filename.

Входные параметры

развернуть все

Имя файла Parquet в виде вектора символов или строкового скаляра. ParquetInfo работает с Паркетом 1.0 или Паркетом 2,0 файла.

В зависимости от местоположения файла, filename может взять одну из следующих форм.

Местоположение

Форма

Текущая папка или папка на MATLAB® path

Задайте имя файла в filename.

Пример: 'data.parquet'

Файл в папке

Если файл не находится в текущей папке или в папке на пути MATLAB, то задайте полное имя или относительный путь.

Пример: 'C:\myFolder\data.parquet'

Пример: 'myDir\myFile.ext'

Интернет URL

Если файл задан как интернет-универсальный локатор ресурса (URL), то filename должен содержать тип протокола 'http://' или 'https://' и закончите '?raw=true'.

Пример: 'http://hostname/path_to_file/my_data.parquet?raw=true'

Удаленное местоположение

Если файл хранится в удаленном местоположении, то filename должен содержать полный путь файла, заданного с формой:

scheme_name://path_to_file/my_file.ext

На основе удаленного местоположения, scheme_name может быть одно из значений в этой таблице.

Удаленное местоположениеscheme_name
Amazon S3™s3
Windows Azure® Устройство хранения данных блобаwasb, wasbs
HDFS™hdfs

Для получения дополнительной информации смотрите работу с Удаленными данными.

Пример: 's3://bucketname/path_to_file/data.parquet'

Типы данных: char | string

Свойства

развернуть все

Это свойство доступно только для чтения.

Абсолютный путь к файлу Parquet в виде строкового скаляра.

Типы данных: string

Это свойство доступно только для чтения.

Размер файла в байтах в виде double.

Типы данных: double

Это свойство доступно только для чтения.

Количество групп строки в виде double.

Типы данных: double

Это свойство доступно только для чтения.

Количество строк в каждой группе строки в виде double.

Типы данных: double

Это свойство доступно только для чтения.

Имена переменных в виде массива строк. Если файл Parquet содержит N переменные, затем VariableNames массив размера 1- N содержа имена переменных.

Типы данных: string

Это свойство доступно только для чтения.

Типы данных переменных в виде массива строк. Если файл Parquet содержит N переменные, затем VariableTypes массив размера 1- N содержа имена типов данных для каждой переменной. Каждым элементом в массиве является имя типа данных MATLAB, с которым соответствующая переменная в файле Parquet сопоставляет.

Типы данных: string

Это свойство доступно только для чтения.

Переменный алгоритм сжатия в виде массива строк. Если файл Parquet содержит N переменные, затем VariableCompression массив размера 1- N содержа имена алгоритма сжатия. Каждый элемент в массиве соответствует алгоритму сжатия, используемому, чтобы сжать ту переменную в файле Parquet. Смотрите parquetwrite для списка поддерживаемых алгоритмов сжатия.

Типы данных: string

Это свойство доступно только для чтения.

Переменное кодирование в виде массива строк. Если файл Parquet содержит N переменные, затем VariableEncoding массив размера 1- N содержа имена схемы кодирования. Каждый элемент в массиве соответствует схеме кодирования, используемой, чтобы закодировать ту переменную в файле Parquet. Смотрите parquetwrite для списка поддерживаемой кодировки.

Типы данных: string

Это свойство доступно только для чтения.

Устелите паркетом версию в виде любого "1.0" или "2.0".

Типы данных: string

Примеры

свернуть все

Используйте parquetinfo функция, чтобы создать ParquetInfo объект, содержащий информацию о файле.

info = parquetinfo('outages.parquet')
info = 
  ParquetInfo with properties:

               Filename: "/mathworks/devel/bat/BR2021bd/build/matlab/toolbox/matlab/demos/outages.parquet"
               FileSize: 44202
           NumRowGroups: 1
        RowGroupHeights: 1468
          VariableNames: ["Region"    "OutageTime"    "Loss"    ...    ]
          VariableTypes: ["string"    "datetime"    "double"    ...    ]
    VariableCompression: ["snappy"    "snappy"    "snappy"    ...    ]
       VariableEncoding: ["plain"    "plain"    "plain"    "plain"    ...    ]
                Version: "2.0"

Отобразите имя, введите, и схема сжатия для третьей переменной в файле.

disp([info.VariableNames(3)  info.VariableTypes(3) info.VariableCompression(3)]) 
    "Loss"    "double"    "snappy"
Введенный в R2019a