Тип данных Parquet Apache Отображений

MATLAB® представляет данные, ориентированные на столбцы, с таблицами и расписаниями. Каждая переменная в таблице или расписании может иметь различные типы данных и любое количество столбцов. Векторы-столбцы являются наиболее распространенной формой переменных таблицы и расписания.

Формат файла Apache™ Parquet используется для гетерогенных данных, ориентированных на столбцы. Подобно таблицам MATLAB и расписаниям, каждый из столбцов в файле Parquet может иметь различные типы данных.

Несмотря на их сходство, разрешенные типы данных в таблицах MATLAB и расписаниях не всегда идеально соответствуют разрешенным типам данных в файлах Parquet. В некоторых случаях MATLAB необходимо выполнить преобразование типов данных, чтобы сохранить информацию в данных (например, отсутствующие значения). Это преобразование иногда может привести к потере точности в данных.

В целом, таблицы MATLAB и расписания имеют такое поведение, когда они преобразованы в файлы Parquet:

  • Свойства таблицы, установленные в исходной таблице, не сохраняются.

  • Имена строк таблицы или время строки расписания преобразуются в новую табличную переменную перед записью.

  • При чтении имени переменной из файла Parquet недопустимые имена табличных переменных преобразуются в допустимые имена табличных переменных.

В следующих таблицах суммируются представимые типы данных в таблицах MATLAB и расписаниях, а также то, как эти переменные представлены в файлах Parquet. Эти отображения типов данных могут идти в обоих направлениях (MATLAB → Parquet и Parquet → MATLAB), если не указано иное. Файлы Parquet используют небольшое количество примитивных (или физических) типов данных. Логические типы расширяют физические типы путем определения способа их интерпретации. Типы данных Parquet, не описанные здесь, не поддерживаются для чтения или записи в файлы Parquet (JSON, BSON, двоичный и так далее).

Типы числовых данных

Таблица MATLAB или тип переменной TimetableТип данных Parquet ApacheПримечания

Физический тип

Логический тип

double

DOUBLE

NONE

MATLAB преобразует все отсутствующие числа с плавающей запятой в файле Parquet в NaN значения.

single

FLOAT

NONE

int8

INT32

INT_8

При чтении файла Parquet, если массив с интегральным типом содержит отсутствующие значения, то массив преобразуется в MATLAB double тип данных вместо целочисленного типа данных. Отсутствующие значения установлены в NaN.

Для 64-битных целых чисел это преобразование может привести к усечению значений, которые больше по величине, чем flintmax.

uint8

UINT_8

int16

INT_16

uint16

UINT_16

int32

NONE

uint32

UINT_32

int64

INT64

NONE

uint64

UINT_64

logical

BOOLEAN

NONE

При чтении файла Parquet, если массив с BOOLEAN тип содержит отсутствующие значения, затем массив преобразуется в MATLAB double тип данных вместо logical тип данных. Отсутствующие значения установлены в NaN.

Типы текстовых данных

Таблица MATLAB или тип переменной TimetableТип данных Parquet ApacheПримечания

Физический тип

Логический тип

categorical

BYTE_ARRAY

UTF8

string, char, и cellstr все сопоставлены с одним и тем же типом данных Parquet, и этот тип данных всегда считывается в MATLAB как строковые массивы.

string

char

cellstr (массив ячеек из векторов символов)

Типы данных даты и времени

Таблица MATLAB или тип переменной TimetableТип данных Parquet ApacheПримечания

Физический тип

Логический тип

datetime

INT32

DATE

MATLAB массивы datetime, записанные в файл Parquet, используют TIMESTAMP_MICROS форматирование и иметь точность, усеченную до 1 микросекунды. Настройки формата отображения не сохраняются.

INT64

TIMESTAMP_MILLIS

TIMESTAMP_MICROS

duration

INT32

TIME_MILLIS

Массивы длительности MATLAB, записанные в файл Parquet, используют TIME_MICROS форматирование и иметь точность, усеченную до 1 микросекунды. Настройки формата отображения не сохраняются.

INT64

TIME_MICROS

См. также

| |

Для просмотра документации необходимо авторизоваться на сайте