Рабочий процесс Больших данных с использованием высоких массивов и хранилищ данных

Рисунок показывает типичный рабочий процесс что длинные массивы использования, чтобы анализировать большой набор данных. В этом рабочем процессе вы анализируете небольшое подмножество данных перед увеличением масштаба, чтобы анализировать целый набор данных. Параллельные вычисления могут помочь вам масштабировать от шагов шесть - семь. Таким образом, после проверки, что ваш код работает над небольшим набором данных, запустите его на целом наборе данных. Можно использовать MATLAB® улучшать этот рабочий процесс.

ПроблемаРешениеНеобходимые продуктыБольше информации
Действительно ли ваши данные являются слишком большими?

Чтобы работать с данными, которые не помещаются в память, с любым количеством строк, используйте длинные массивы.

Этот рабочий процесс хорошо подходит для анализа данных и машинного обучения.

MATLAB

Длинные массивы для данных, которые не помещаются в память,

Используйте длинные массивы параллельно на вашей локальной машине.

MATLAB

Parallel Computing Toolbox™

Используйте длинные массивы на параллельном пуле

Используйте длинные массивы параллельно в вашем кластере.

MATLAB

Parallel Computing Toolbox

MATLAB Parallel Server™

Чтобы использовать длинные массивы в кластере Hadoop, смотрите Длинные массивы Использования на Spark Enabled Кластер Hadoop

Для всех других типов кластера используйте нелокальный кластерный профиль, чтобы настроить параллельный пул. Для примера смотрите Длинные массивы Использования на Параллельном Пуле

Если ваши данные являются большими в нескольких размерностях, использовать distributed вместо этого.

MATLAB

Parallel Computing Toolbox

MATLAB Parallel Server

Распределительные массивы, чтобы быть параллельными рабочим

Выполнение длинных массивов параллельно

Parallel Computing Toolbox может сразу ускорить ваши вычисления длинного массива при помощи полной вычислительной мощности многоядерных компьютеров, чтобы выполнить приложения с параллельным пулом рабочих. Если вам уже установили Parallel Computing Toolbox, то вы, вероятно, не должны делать ничего специального, чтобы использовать в своих интересах эти возможности. Для получения дополнительной информации об использовании длинных массивов с Parallel Computing Toolbox смотрите Длинные массивы Использования на Параллельном Пуле.

Использование mapreducer управлять, куда ваш код запускается

Когда вы выполняете длинные массивы, среда выполнения по умолчанию использует или локальный сеанс работы с MATLAB или локальный параллельный пул, если у вас есть Parallel Computing Toolbox. Пул по умолчанию использует локальных рабочих, обычно одного рабочего для каждого ядра в вашей машине. Используйте mapreducer функционируйте, чтобы изменить среду выполнения длинных массивов, чтобы использовать различный кластер.

Одно из преимуществ разработки ваших алгоритмов с длинными массивами - то, что только необходимо записать код однажды. Можно разработать код локально, затем использовать mapreducer масштабировать и использовать в своих интересах возможности, предлагаемые Parallel Computing Toolbox и MATLAB Parallel Server.

Смотрите также

| | |

Связанные примеры

Больше о

Для просмотра документации необходимо авторизоваться на сайте