Большие файлы и Большие данные

Доступ и обработка коллекций файлов и больших наборов данных

Большие наборы данных могут быть в форме больших файлов, которые не помещаются в доступную память или файлы, обработка которых занимает много времени. Большой набор данных также может быть коллекцией многочисленных небольших файлов. Нет никакого единого подхода к работе с большими наборами данных, таким образом, MATLAB® включает в себя ряд инструментов для доступа и обработки больших данных.

Начните с создания хранилища данных (datastore), которое может одновременно получать доступ к небольшим частям данных. Можно использовать datastore, чтобы управлять инкрементным импортом данных. Анализировать данные с помощью общих функций MATLAB, таких как mean и histogram, создайте высокий массив поверх datastore. Для более сложных задач можно написать алгоритм MapReduce, который определяет фрагментацию и сокращение данных.

  • Datastore
    Чтение больших коллекций данных
  • "Высокие" массивы
    Массивы с большим количеством строк, чем умещаются в памяти
  • MapReduce
    Метод программирования для анализа наборов данных, которые не умещаются в памяти
  • Большие MAT-файлы
    Доступ и изменение переменных без загрузки в память
  • Файлы Parquet
    Чтение и запись файлов Parquet
  • Размещение в ОЗУ
    Сопоставьте данные о файле с памятью для более быстрого доступа