Рисунок показывает типичный рабочий процесс что длинные массивы использования, чтобы анализировать большой набор данных. В этом рабочем процессе вы анализируете небольшое подмножество данных перед увеличением масштаба, чтобы анализировать целый набор данных. Параллельные вычисления могут помочь вам масштабировать от шагов шесть - семь. Таким образом, после проверки, что ваш код работает над небольшим набором данных, запустите его на целом наборе данных. Можно использовать MATLAB®, чтобы улучшить этот рабочий процесс.
Проблема | Решение | Необходимые продукты | Больше информации |
---|---|---|---|
Действительно ли ваши данные являются слишком большими? | Чтобы работать с данными, которые не помещаются в память, с любым количеством строк, используйте длинные массивы. Этот рабочий процесс хорошо подходит для анализа данных и машинного обучения. | MATLAB | Длинные массивы для данных, которые не помещаются в память, (MATLAB) |
Используйте длинные массивы параллельно на вашей локальной машине. | MATLAB Parallel Computing Toolbox™ | ||
Используйте длинные массивы параллельно на вашем кластере. | MATLAB Parallel Computing Toolbox MATLAB Parallel Server™ | ||
Если ваши данные являются большими в нескольких размерностях, используйте | MATLAB Parallel Computing Toolbox MATLAB Parallel Server |
Parallel Computing Toolbox может сразу ускорить ваши вычисления длинного массива при помощи полной вычислительной мощности многоядерных компьютеров, чтобы выполнить приложения с параллельным пулом рабочих. Если вам уже установили Parallel Computing Toolbox, то вы, вероятно, не должны делать ничего специального, чтобы использовать в своих интересах эти возможности. Для получения дополнительной информации об использовании длинных массивов с Parallel Computing Toolbox смотрите Длинные массивы Использования на Параллельном Пуле.
mapreducer
управлять, куда ваш код запускаетсяКогда вы выполняете длинные массивы, среда выполнения по умолчанию использует или локальный сеанс работы с MATLAB или локальный параллельный пул, если у вас есть Parallel Computing Toolbox. Пул по умолчанию использует локальных рабочих, обычно одного рабочего для каждого ядра в вашей машине. Используйте mapreducer
функционируйте, чтобы изменить среду выполнения длинных массивов, чтобы использовать различный кластер.
Одно из преимуществ разработки ваших алгоритмов с длинными массивами - то, что только необходимо записать код однажды. Можно разработать код локально, затем использовать mapreducer
масштабировать и использовать в своих интересах возможности, предлагаемые Parallel Computing Toolbox и MATLAB Parallel Server.
datastore
| gather
| mapreducer
| tall