Рисунок показывает типичный рабочий процесс что длинные массивы использования, чтобы анализировать большой набор данных. В этом рабочем процессе вы анализируете небольшое подмножество данных перед увеличением масштаба, чтобы анализировать целый набор данных. Параллельные вычисления могут помочь вам масштабировать от шагов шесть - семь. Таким образом, после проверки, что ваш код работает над небольшим набором данных, запустите его на целом наборе данных. Можно использовать MATLAB®, чтобы улучшить этот рабочий процесс.
Проблема | Решение | Необходимые продукты | Больше информации |
---|---|---|---|
Действительно ли ваши данные являются слишком большими? | Чтобы работать с данными, которые не помещаются в память, с любым количеством строк, используйте длинные массивы. Этот рабочий процесс хорошо подходит для анализа данных и машинного обучения. | MATLAB | |
Используйте длинные массивы параллельно на вашей локальной машине. | MATLAB Parallel Computing Toolbox™ | ||
Используйте длинные массивы параллельно на вашем кластере. | MATLAB Parallel Computing Toolbox MATLAB Parallel Server™ | Чтобы использовать длинные массивы на кластере Hadoop, смотрите Длинные массивы Использования на Spark Enabled Кластер Hadoop Для всех других типов кластера используйте нелокальный кластерный профиль, чтобы настроить параллельный пул. Для примера смотрите Длинные массивы Использования на Параллельном Пуле | |
Если ваши данные являются большими в нескольких размерностях, использовать | MATLAB Parallel Computing Toolbox MATLAB Parallel Server |
Parallel Computing Toolbox может сразу ускорить ваши вычисления длинного массива при помощи полной вычислительной мощности многоядерных компьютеров, чтобы выполнить приложения с параллельным пулом рабочих. Если вам уже установили Parallel Computing Toolbox, то вы, вероятно, не должны делать ничего специального, чтобы использовать в своих интересах эти возможности. Для получения дополнительной информации об использовании длинных массивов с Parallel Computing Toolbox смотрите Длинные массивы Использования на Параллельном Пуле.
mapreducer
управлять, куда ваш код запускаетсяКогда вы выполняете длинные массивы, среда выполнения по умолчанию использует или локальный сеанс работы с MATLAB или локальный параллельный пул, если у вас есть Parallel Computing Toolbox. Пул по умолчанию использует локальных рабочих, обычно одного рабочего для каждого ядра в вашей машине. Используйте mapreducer
функционируйте, чтобы изменить среду выполнения длинных массивов, чтобы использовать различный кластер.
Одно из преимуществ разработки ваших алгоритмов с длинными массивами - то, что только необходимо записать код однажды. Можно разработать код локально, затем использовать mapreducer
масштабировать и использовать в своих интересах возможности, предлагаемые Parallel Computing Toolbox и MATLAB Parallel Server.
datastore
| gather
| mapreducer
| tall