exponenta event banner

Массивы высокого уровня и mapreduce

Параллельный анализ больших массивов данных с помощью массивов и хранилищ данных MATLAB ® илиmapreduce в кластерах Spark ® и Hadoop ® и параллельных пулах

Toolbox™ параллельных вычислений можно использовать для параллельного вычисления выражений с высоким массивом с использованием параллельного пула на рабочем столе. Использование массивов tall позволяет запускать приложения больших данных, которые не помещаются в память компьютера. Можно также использовать панель инструментов Parallel Computing Toolbox для масштабирования обработки с высоким массивом путем подключения к пулу параллельной обработки, работающему в кластере MATLAB Parallel Server™. Также можно использовать кластер Hadoop с поддержкой Spark, работающий под управлением параллельного сервера MATLAB. Дополнительные сведения см. в разделе Рабочий процесс больших данных с использованием массивов и хранилищ данных.

Функции

развернуть все

tallСоздать массив высокого уровня
datastoreСоздание хранилища данных для больших коллекций данных
mapreduceМетодика программирования для анализа наборов данных, не помещающихся в память
mapreducerОпределение среды параллельного выполнения для массивов mapreduction и tall
partitionРазбиение хранилища данных на разделы
numpartitionsКоличество разделов хранилища данных
parpoolСоздание параллельного пула в кластере
gcpПолучить текущий параллельный пул

Классы

развернуть все

parallel.PoolПараллельный пул работников
parallel.cluster.HadoopКластер Hadoop для массивов mapreducer, mapreduction и tall

Примеры и способы

Бизнес-процесс больших данных с использованием массивов Tall и хранилищ данных

Узнайте о типичных рабочих процессах, использующих массивы tall для анализа наборов больших данных.

Использование массивов Tall в параллельном пуле

Откройте для себя массивы tall в панели инструментов Parallel Computing Toolbox и Parallel Server MATLAB.

Обработка больших данных в облаке

В этом примере показано, как получить доступ к большому набору данных в облаке и обработать его в облачном кластере с использованием возможностей MATLAB для больших данных.

Использование массивов Tall в кластере Hadoop с поддержкой искр

Создание и использование высоких таблиц в кластерах Spark без изменения кода MATLAB.

Выполнить mapreduction в параллельном пуле

Попробуй mapreduce для расширенного анализа больших данных с помощью Parallel Computing Toolbox.

Выполнить mapreduction в кластере Hadoop

Подробнее mapreduce для расширенного анализа больших данных в кластере Hadoop.

Секционирование хранилища данных параллельно

Использовать partition для разделения datastore на более мелкие части.

Понятия

Выполнение кода для параллельных пулов

Сведения о запуске и остановке параллельных пулов, размере пула и выборе кластера.

Укажите параметры параллельности

Укажите настройки и автоматически создайте параллельный пул.

Обнаружение кластеров и использование профилей кластеров

Узнайте, как работать с профилями кластеров и находить облачные кластеры, работающие на Amazon EC2.

Характерные примеры