Большие файлы и Большие данные

Доступ и обработка коллекций файлов и больших наборов данных

Большие наборы данных могут быть в форме больших файлов, которые не помещаются в доступную память или файлы, обработка которых занимает много времени. Большой набор данных также может быть коллекцией многочисленных небольших файлов. Нет никакого единого подхода к работе с большими наборами данных, таким образом, MATLAB® включает в себя ряд инструментов для доступа и обработки больших данных.

Начните с создания хранилища данных (datastore), которое может одновременно получать доступ к небольшим частям данных. Можно использовать datastore, чтобы управлять инкрементным импортом данных. Чтобы анализировать данные с помощью общих функций MATLAB, таких как mean и histogram, создают высокий массив поверх datastore. Для более сложных задач можно написать алгоритм MapReduce, который определяет фрагментацию и сокращение данных.