Рабочий процесс Больших данных с использованием высоких массивов и хранилищ данных

Рисунок показывает типовой рабочий процесс, который использует длинные массивы для анализа большого набора данных. В этом рабочем процессе вы анализируете небольшое подмножество данных перед масштабированием, чтобы проанализировать весь набор данных. Параллельные вычисления могут помочь вам увеличить масштаб от шести до семи шагов. То есть, проверив, что ваш код работает на небольшом наборе данных, запустите его на целом наборе данных. Можно использовать MATLAB® для улучшения этого рабочего процесса.

ПроблемаРешениеТребуемые продуктыДополнительная информация
Ваши данные слишком большие?

Для работы с данной , которой не помещаютсей в память, с любым количеством строк используйте длинные массивы.

Этот рабочий процесс хорошо подходит для аналитики данных и машинного обучения.

MATLAB

Длинные массивы for Данная , Которая Не Помещаются в Память,

Используйте длинные массивы параллельно на локальной машине.

MATLAB

Parallel Computing Toolbox™

Использование длинных массивов в параллельном пуле

Используйте длинные массивы параллельно на вашем кластере.

MATLAB

Parallel Computing Toolbox

MATLAB Parallel Server™

Чтобы использовать длинные массивы на кластере Hadoop, смотрите Использование длинных массивов на кластере Hadoop с поддержкой Spark

Для всех других типов кластеров используйте нелокальный профиль кластера, чтобы настроить параллельный пул. Для получения примера смотрите Использование Длинных массивов в параллельном пуле

Если ваши данные большие в нескольких размерностях, используйте distributed вместо этого.

MATLAB

Parallel Computing Toolbox

MATLAB Parallel Server

Распределение массивов среди параллельных рабочих

Выполнение длинных массивов параллельно

Parallel Computing Toolbox может немедленно ускорить вычисления длинных массивов, используя полную степень многоядерных компьютеров для выполнения приложений с параллельным пулом рабочих мест. Если у вас уже установлен Parallel Computing Toolbox, то вам, вероятно, не нужно делать ничего особенного, чтобы воспользоваться этими возможностями. Дополнительные сведения об использовании длинных массивов с Parallel Computing Toolbox см. в разделе Использование длинных массивов в параллельном пуле.

Использовать mapreducer чтобы контролировать, где работает ваш код

При выполнении длинные массивы окружение выполнения по умолчанию использует либо локальный сеанс работы с MATLAB, либо локальный параллельный пул, если у вас есть Parallel Computing Toolbox. Пул по умолчанию использует локальных работников, обычно по одному рабочему для каждого ядра на вашем компьютере. Используйте mapreducer функция для изменения окружения выполнения длинные массивы для использования другого кластера.

Одно из преимуществ разработки алгоритмов с длинные массивы в том, что вам нужно только один раз записать код. Вы можете разработать свой код локально, затем использовать mapreducer масштабирование и использование возможностей, предлагаемых Parallel Computing Toolbox и MATLAB Parallel Server.

См. также

| | |

Похожие примеры

Подробнее о