Большие наборы данных могут быть в форме больших файлов, которые не помещаются в доступную память или файлы, обработка которых занимает много времени. Большой набор данных также может быть коллекцией многочисленных небольших файлов. Нет никакого единого подхода к работе с большими наборами данных, таким образом, MATLAB® включает в себя ряд инструментов для доступа и обработки больших данных.
Начните с создания хранилища данных (datastore), которое может одновременно получать доступ к небольшим частям данных. Можно использовать datastore, чтобы управлять инкрементным импортом данных. Чтобы анализировать данные с помощью общих функций MATLAB, таких как mean
и histogram
, создают высокий массив поверх datastore. Для более сложных задач можно написать алгоритм MapReduce, который определяет фрагментацию и сокращение данных.