parquetinfo

Получите информацию о файле Parquet

Описание

ParquetInfo объекты содержат информацию о файле Parquet, например: размер файла, имена и типы переменных, схемы кодирования и сжатия. Чтобы получить информацию о файле Parquet, создайте ParquetInfo использование объекта parquetinfo функция.

Создание

Описание

пример

info = parquetinfo(filename) возвращает info объект для файла Parquet, заданный как filename.

Входные параметры

расширить все

Имя файла Parquet в виде вектора символов или строкового скаляра. ParquetInfo работает с файлами Parquet 1.0 или Parquet 2.0.

В зависимости от расположения файла, filename может принять одну из этих форм.

Местоположение

Форма

Текущая папка или папка на MATLAB® путь

Укажите имя файла в filename.

Пример: 'data.parquet'

Файл в папке

Если файл находится не в текущей папке или в папке на пути MATLAB, задайте полное или относительное имя пути.

Пример: 'C:\myFolder\data.parquet'

Пример: 'myDir\myFile.ext'

URL-адрес Интернета

Если файл задан как однородный интернет-локатор ресурсов (URL), то filename должен содержать тип протокола 'http://' или 'https://' и заканчиваются '?raw=true'.

Пример: 'http://hostname/path_to_file/my_data.parquet?raw=true'

Удаленное местоположение

Если файл хранится в удаленном местоположении, то filename должен содержать полный путь к файлу, указанному в форме:

scheme_name://path_to_file/ my_file.ext

Исходя из удаленного местоположения, scheme_name может быть одним из значений в этой таблице.

Удаленное местоположениеscheme_name
Амазонки S3™s3
Windows Azure® Хранилище больших двоичных объектовwasb, wasbs
HDFS™hdfs

Для получения дополнительной информации см. раздел Работа с удаленными данными.

Пример: 's3://bucketname/path_to_file/data.parquet'

Типы данных: char | string

Свойства

расширить все

Это свойство доступно только для чтения.

Абсолютный путь к файлу Parquet, заданный как строковый скаляр.

Типы данных: string

Это свойство доступно только для чтения.

Размер файла в байтах, задается как double.

Типы данных: double

Это свойство доступно только для чтения.

Количество групп строк в виде double.

Типы данных: double

Это свойство доступно только для чтения.

Количество строк в каждой группе строк, заданное как double.

Типы данных: double

Это свойство доступно только для чтения.

Имена переменных, заданные как строковые массивы. Если файл Parquet содержит N переменные, затем VariableNames - массив размера 1-by- N содержащие имена переменных.

Типы данных: string

Это свойство доступно только для чтения.

Типы данных переменных, заданные как строковые массивы. Если файл Parquet содержит N переменные, затем VariableTypes - массив размера 1-by- N содержит имена типов данных для каждой переменной. Каждый элемент массива является именем типа данных MATLAB, которому сопоставлена соответствующая переменная в файле Parquet.

Типы данных: string

Это свойство доступно только для чтения.

Алгоритм сжатия переменных, заданный как строковые массивы. Если файл Parquet содержит N переменные, затем VariableCompression - массив размера 1-by- N содержит имена алгоритмов сжатия. Каждый элемент массива соответствует алгоритму сжатия, используемому для сжатия этой переменной в файле Parquet. Посмотрите parquetwrite для получения списка поддерживаемых алгоритмов сжатия.

Типы данных: string

Это свойство доступно только для чтения.

Кодировка переменной, заданная как строковые массивы. Если файл Parquet содержит N переменные, затем VariableEncoding - массив размера 1-by- N содержит имена схем кодирования. Каждый элемент массива соответствует схеме кодирования, используемой для кодирования этой переменной в файле Parquet. Посмотрите parquetwrite для получения списка поддерживаемых кодировок.

Типы данных: string

Это свойство доступно только для чтения.

Версия Parquet, заданная как "1.0" или "2.0".

Типы данных: string

Примеры

свернуть все

Используйте parquetinfo функция для создания ParquetInfo объект, содержащий информацию о файле.

info = parquetinfo('outages.parquet')
info = 
  ParquetInfo with properties:

               Filename: "/mathworks/devel/bat/BR2021ad/build/matlab/toolbox/matlab/demos/outages.parquet"
               FileSize: 44202
           NumRowGroups: 1
        RowGroupHeights: 1468
          VariableNames: [1x6 string]
          VariableTypes: [1x6 string]
    VariableCompression: [1x6 string]
       VariableEncoding: [1x6 string]
                Version: "2.0"

Отобразите имя, тип и схему сжатия для третьей переменной в файле.

disp([info.VariableNames(3)  info.VariableTypes(3) info.VariableCompression(3)]) 
    "Loss"    "double"    "snappy"
Введенный в R2019a