Большие файлы и большие данные

Доступ и обработка коллекций файлов и больших наборов данных

Большие наборы данных могут быть в виде больших файлов, которые не помещаются в доступную память или файлы , обработка которых занимает много времени. Большой набор данных также может быть коллекцией многочисленных небольших файлов. Единого подхода к работе с большими наборами данных нет, поэтому MATLAB® включает в себя ряд инструментов для доступа к большим данным и их обработки.

Начните с создания datastore, который может получить доступ к небольшим фрагментам данных за раз. Можно использовать datastore, чтобы управлять инкрементным импортом данных. Чтобы проанализировать данные с помощью общих функций MATLAB, таких как mean и histogram, создайте высокий массив поверх datastore. Для более сложных задач можно написать алгоритм MapReduce, который задает куски и сокращение данных.

  • Datastore
    Чтение больших наборов данных
  • Длинные» массивы
    Массивы с большим количеством строк, чем помещается в памяти
  • MapReduce
    Метод программирования для анализа наборов данных, которые не помещаются в памяти
  • Большие MAT-файлы
    Доступ и изменение переменных без загрузки в память
  • Файлы Parquet
    Чтение и запись файлов Parquet
  • Размещение в ОЗУ
    Сопоставьте данные файла с памятью для более быстрого доступа