Рисунок показывает типовой рабочий процесс, который использует длинные массивы для анализа большого набора данных. В этом рабочем процессе вы анализируете небольшое подмножество данных перед масштабированием, чтобы проанализировать весь набор данных. Параллельные вычисления могут помочь вам увеличить масштаб от шести до семи шагов. То есть, проверив, что ваш код работает на небольшом наборе данных, запустите его на целом наборе данных. Можно использовать MATLAB® для улучшения этого рабочего процесса.
Проблема | Решение | Требуемые продукты | Дополнительная информация |
---|---|---|---|
Ваши данные слишком большие? | Для работы с данной , которой не помещаютсей в память, с любым количеством строк используйте длинные массивы. Этот рабочий процесс хорошо подходит для аналитики данных и машинного обучения. | MATLAB | Длинные массивы for Данная , Которая Не Помещаются в Память, |
Используйте длинные массивы параллельно на локальной машине. | MATLAB Parallel Computing Toolbox™ | ||
Используйте длинные массивы параллельно на вашем кластере. | MATLAB Parallel Computing Toolbox MATLAB Parallel Server™ | Чтобы использовать длинные массивы на кластере Hadoop, смотрите Использование длинных массивов на кластере Hadoop с поддержкой Spark Для всех других типов кластеров используйте нелокальный профиль кластера, чтобы настроить параллельный пул. Для получения примера смотрите Использование Длинных массивов в параллельном пуле | |
Если ваши данные большие в нескольких размерностях, используйте | MATLAB Parallel Computing Toolbox MATLAB Parallel Server |
Parallel Computing Toolbox может немедленно ускорить вычисления длинных массивов, используя полную степень многоядерных компьютеров для выполнения приложений с параллельным пулом рабочих мест. Если у вас уже установлен Parallel Computing Toolbox, то вам, вероятно, не нужно делать ничего особенного, чтобы воспользоваться этими возможностями. Дополнительные сведения об использовании длинных массивов с Parallel Computing Toolbox см. в разделе Использование длинных массивов в параллельном пуле.
mapreducer
чтобы контролировать, где работает ваш кодПри выполнении длинные массивы окружение выполнения по умолчанию использует либо локальный сеанс работы с MATLAB, либо локальный параллельный пул, если у вас есть Parallel Computing Toolbox. Пул по умолчанию использует локальных работников, обычно по одному рабочему для каждого ядра на вашем компьютере. Используйте mapreducer
функция для изменения окружения выполнения длинные массивы для использования другого кластера.
Одно из преимуществ разработки алгоритмов с длинные массивы в том, что вам нужно только один раз записать код. Вы можете разработать свой код локально, затем использовать mapreducer
масштабирование и использование возможностей, предлагаемых Parallel Computing Toolbox и MATLAB Parallel Server.
datastore
| gather
| mapreducer
| tall