exponenta event banner

Бизнес-процесс больших данных с использованием массивов Tall и хранилищ данных

На рисунке показан типичный рабочий процесс, в котором для анализа большого набора данных используются массивы tall. В этом рабочем процессе выполняется анализ небольшого подмножества данных перед масштабированием для анализа всего набора данных. Параллельные вычисления помогут вам увеличить масштаб с шести до семи шагов. То есть после проверки того, что ваш код работает на небольшом наборе данных, запустите его на всем наборе данных. Для расширения этого потока операций можно использовать MATLAB ®.

ПроблемаРешениеНеобходимые продуктыДополнительные сведения
Ваши данные слишком велики?

Для работы с данными из памяти с любым количеством строк используйте массивы tall.

Этот рабочий процесс хорошо подходит для анализа данных и машинного обучения.

MATLAB

Массивы Tall для данных без памяти

Используйте массивы tall параллельно на локальном компьютере.

MATLAB

Параллельные вычисления Toolbox™

Использование массивов Tall в параллельном пуле

Параллельно используйте массивы tall в кластере.

MATLAB

Панель инструментов для параллельных вычислений

Параллельный Server™ MATLAB

Сведения об использовании массивов tall в кластере Hadoop см. в разделе Использование массивов Tall в кластере Hadoop с поддержкой искр

Для всех других типов кластеров используйте профиль нелокального кластера для настройки параллельного пула. Пример см. в разделе Использование массивов Tall в параллельном пуле

Если данные велики в нескольких измерениях, используйте distributed вместо этого.

MATLAB

Панель инструментов для параллельных вычислений

Параллельный сервер MATLAB

Распределение массивов по параллельным работникам

Параллельное выполнение массивов Tall

Parallel Computing Toolbox может немедленно ускорить вычисления массива высокого уровня, используя полную вычислительную мощность многоядерных компьютеров для выполнения приложений с параллельным пулом работников. Если у вас уже установлена панель инструментов Parallel Computing Toolbox, то вам, вероятно, не нужно делать ничего особенного, чтобы воспользоваться этими возможностями. Дополнительные сведения об использовании массивов tall с панелью инструментов Parallel Computing Toolbox см. в разделе Использование массивов Tall в параллельном пуле.

Использовать mapreducer для управления местом запуска кода

При выполнении массивов tall среда выполнения по умолчанию использует либо локальный сеанс MATLAB, либо локальный параллельный пул при наличии панели инструментов Parallel Computing Toolbox. Пул по умолчанию использует локальных работников, обычно по одному работнику для каждого ядра компьютера. Используйте mapreducer для изменения среды выполнения массивов tall для использования другого кластера.

Одно из преимуществ разработки алгоритмов с помощью массивов tall состоит в том, что код нужно писать только один раз. Код можно разработать локально, а затем использовать mapreducer для расширения и использования возможностей, предлагаемых Parallel Computing Toolbox и MATLAB Parallel Server.

См. также

| | |

Связанные примеры

Подробнее