Рабочий процесс Больших данных с использованием высоких массивов и хранилищ данных

Рисунок показывает типичный рабочий процесс что длинные массивы использования, чтобы анализировать большой набор данных. В этом рабочем процессе вы анализируете небольшое подмножество данных перед увеличением масштаба, чтобы анализировать целый набор данных. Параллельные вычисления могут помочь вам масштабировать от шагов шесть - семь. Таким образом, после проверки, что ваш код работает над небольшим набором данных, запустите его на целом наборе данных. Можно использовать MATLAB®, чтобы улучшить этот рабочий процесс.

ПроблемаРешениеНеобходимые продуктыБольше информации
Действительно ли ваши данные являются слишком большими?

Чтобы работать с данными, которые не помещаются в память, с любым количеством строк, используйте длинные массивы.

Этот рабочий процесс хорошо подходит для анализа данных и машинного обучения.

MATLAB

Длинные массивы (MATLAB)

Используйте длинные массивы параллельно на вашей локальной машине.

MATLAB

Parallel Computing Toolbox™

Используйте длинные массивы на параллельном пуле

Используйте длинные массивы параллельно на вашем кластере.

MATLAB

Parallel Computing Toolbox

MATLAB Parallel Server™

Используйте длинные массивы на Spark Enabled кластер Hadoop

Если ваши данные являются большими в нескольких размерностях, используйте distributed вместо этого.

MATLAB

Parallel Computing Toolbox

MATLAB Parallel Server

Распределительные массивы, чтобы быть параллельными рабочим

Выполнение длинных массивов параллельно

Parallel Computing Toolbox может сразу ускорить ваши вычисления длинного массива при помощи полной вычислительной мощности многоядерных компьютеров, чтобы выполнить приложения с параллельным пулом рабочих. Если вам уже установили Parallel Computing Toolbox, то вы, вероятно, не должны делать ничего специального, чтобы использовать в своих интересах эти возможности. Для получения дополнительной информации об использовании длинных массивов с Parallel Computing Toolbox смотрите Длинные массивы Использования на Параллельном Пуле.

Используйте mapreducer, чтобы управлять, куда ваш код запускается

Когда вы выполняете длинные массивы, среда выполнения по умолчанию использует или локальный сеанс работы с MATLAB или локальный параллельный пул, если у вас есть Parallel Computing Toolbox. Пул по умолчанию использует локальных рабочих, обычно одного рабочего для каждого ядра в вашей машине. Используйте функцию mapreducer, чтобы изменить среду выполнения длинных массивов, чтобы использовать различный кластер.

Одно из преимуществ разработки ваших алгоритмов с длинными массивами - то, что только необходимо записать код однажды. Можно разработать код локально, затем использовать mapreducer, чтобы масштабировать и использовать в своих интересах возможности, предлагаемые Parallel Computing Toolbox и MATLAB Parallel Server.

Смотрите также

| | |

Связанные примеры

Больше о