exponenta event banner

parquetinfo

Получение информации о файле паркета

Описание

ParquetInfo объекты содержат информацию о файле Parquet, например, размер файла, имена и типы переменных, схемы кодирования и сжатия. Чтобы получить информацию о файле паркета, создайте ParquetInfo с использованием parquetinfo функция.

Создание

Описание

пример

info = parquetinfo(filename) возвращает info для файла Parquet, указанного filename.

Входные аргументы

развернуть все

Имя файла Parquet, заданного как вектор символа или скаляр строки. ParquetInfo работает с файлами Parquet 1.0 или Parquet 2.0.

В зависимости от расположения файла, filename может принимать одну из этих форм.

Местоположение

Форма

Текущая папка или папка на пути MATLAB ®

Укажите имя файла в filename.

Пример: 'data.parquet'

Файл в папке

Если файл находится не в текущей папке или в папке на пути MATLAB, укажите полный или относительный путь.

Пример: 'C:\myFolder\data.parquet'

Пример: 'myDir\myFile.ext'

URL-адрес в Интернете

Если файл указан как URL-адрес унифицированного ресурса Интернета, то filename должен содержать тип протокола 'http://' или 'https://' и заканчиваются на '?raw=true'.

Пример: 'http://hostname/path_to_file/my_data.parquet?raw=true'

Удаленное расположение

Если файл хранится в удаленном местоположении, то filename должен содержать полный путь к файлу, указанному в форме:

scheme_name://path_to_file/my_file.ext

На основе удаленного местоположения, scheme_name может быть одним из значений в этой таблице.

Удаленное расположениеscheme_name
Амазонский S3™s3
Хранилище больших двоичных объектов Windows Azure ®wasb, wasbs
HDFS™hdfs

Дополнительные сведения см. в разделе Работа с удаленными данными.

Пример: 's3://bucketname/path_to_file/data.parquet'

Типы данных: char | string

Свойства

развернуть все

Это свойство доступно только для чтения.

Абсолютный путь к файлу Parquet, указанный как строковый скаляр.

Типы данных: string

Это свойство доступно только для чтения.

Размер файла в байтах, указан как double.

Типы данных: double

Это свойство доступно только для чтения.

Количество групп строк, указанных как double.

Типы данных: double

Это свойство доступно только для чтения.

Количество строк в каждой группе строк, указанное как double.

Типы данных: double

Это свойство доступно только для чтения.

Имена переменных, указанные как строковый массив. Если файл паркета содержит N переменные, затем VariableNames является массивом размера 1около-N содержит имена переменных.

Типы данных: string

Это свойство доступно только для чтения.

Переменные типы данных, указанные как строковый массив. Если файл паркета содержит N переменные, затем VariableTypes является массивом размера 1около-N содержит имена типов данных для каждой переменной. Каждый элемент массива является именем типа данных MATLAB, которому соответствует соответствующая переменная в файле Parquet.

Типы данных: string

Это свойство доступно только для чтения.

Алгоритм сжатия переменных, заданный как строковый массив. Если файл паркета содержит N переменные, затем VariableCompression является массивом размера 1около-N содержащий имена алгоритмов сжатия. Каждый элемент массива соответствует алгоритму сжатия, используемому для сжатия этой переменной в файле Parquet. Посмотрите parquetwrite список поддерживаемых алгоритмов сжатия.

Типы данных: string

Это свойство доступно только для чтения.

Кодировка переменной, заданная как строковый массив. Если файл паркета содержит N переменные, затем VariableEncoding является массивом размера 1около-N содержит имена схем кодирования. Каждый элемент в массиве соответствует схеме кодирования, используемой для кодирования этой переменной в файле Parquet. Посмотрите parquetwrite список поддерживаемых кодировок.

Типы данных: string

Это свойство доступно только для чтения.

Паркетная версия, указана как "1.0" или "2.0".

Типы данных: string

Примеры

свернуть все

Используйте parquetinfo для создания функции ParquetInfo объект, содержащий информацию о файле.

info = parquetinfo('outages.parquet')
info = 
  ParquetInfo with properties:

               Filename: "/mathworks/devel/bat/BR2021ad/build/matlab/toolbox/matlab/demos/outages.parquet"
               FileSize: 44202
           NumRowGroups: 1
        RowGroupHeights: 1468
          VariableNames: [1x6 string]
          VariableTypes: [1x6 string]
    VariableCompression: [1x6 string]
       VariableEncoding: [1x6 string]
                Version: "2.0"

Отображение имени, типа и схемы сжатия для третьей переменной в файле.

disp([info.VariableNames(3)  info.VariableTypes(3) info.VariableCompression(3)]) 
    "Loss"    "double"    "snappy"
Представлен в R2019a