
На рисунке показан типичный рабочий процесс, в котором для анализа большого набора данных используются массивы tall. В этом рабочем процессе выполняется анализ небольшого подмножества данных перед масштабированием для анализа всего набора данных. Параллельные вычисления помогут вам увеличить масштаб с шести до семи шагов. То есть после проверки того, что ваш код работает на небольшом наборе данных, запустите его на всем наборе данных. Для расширения этого потока операций можно использовать MATLAB ®.
| Проблема | Решение | Необходимые продукты | Дополнительные сведения |
|---|---|---|---|
| Ваши данные слишком велики? | Для работы с данными из памяти с любым количеством строк используйте массивы tall. Этот рабочий процесс хорошо подходит для анализа данных и машинного обучения. | MATLAB | |
Используйте массивы tall параллельно на локальном компьютере. | MATLAB Параллельные вычисления Toolbox™ | ||
Параллельно используйте массивы tall в кластере. | MATLAB Панель инструментов для параллельных вычислений Параллельный Server™ MATLAB | Сведения об использовании массивов tall в кластере Hadoop см. в разделе Использование массивов Tall в кластере Hadoop с поддержкой искр Для всех других типов кластеров используйте профиль нелокального кластера для настройки параллельного пула. Пример см. в разделе Использование массивов Tall в параллельном пуле | |
Если данные велики в нескольких измерениях, используйте | MATLAB Панель инструментов для параллельных вычислений Параллельный сервер MATLAB |
Parallel Computing Toolbox может немедленно ускорить вычисления массива высокого уровня, используя полную вычислительную мощность многоядерных компьютеров для выполнения приложений с параллельным пулом работников. Если у вас уже установлена панель инструментов Parallel Computing Toolbox, то вам, вероятно, не нужно делать ничего особенного, чтобы воспользоваться этими возможностями. Дополнительные сведения об использовании массивов tall с панелью инструментов Parallel Computing Toolbox см. в разделе Использование массивов Tall в параллельном пуле.
mapreducer для управления местом запуска кодаПри выполнении массивов tall среда выполнения по умолчанию использует либо локальный сеанс MATLAB, либо локальный параллельный пул при наличии панели инструментов Parallel Computing Toolbox. Пул по умолчанию использует локальных работников, обычно по одному работнику для каждого ядра компьютера. Используйте mapreducer для изменения среды выполнения массивов tall для использования другого кластера.
Одно из преимуществ разработки алгоритмов с помощью массивов tall состоит в том, что код нужно писать только один раз. Код можно разработать локально, а затем использовать mapreducer для расширения и использования возможностей, предлагаемых Parallel Computing Toolbox и MATLAB Parallel Server.
datastore | gather | mapreducer | tall