Длинные» массивы и mapreduce

Параллельно анализируйте наборы больших данных с помощью MATLAB® длинные массивы и datastores или mapreduce на Искру® и Хадуп® кластеры и параллельные пулы

Можно использовать Parallel Computing Toolbox™ для параллельного вычисления выражений длинный массив с помощью параллельного пула на рабочем столе. Использование длинные массивы позволяет запускать приложения больших данных, которые не помещаются в памяти на вашей машине. Можно также использовать Parallel Computing Toolbox для масштабирования обработки длинный массив путем подключения к параллельному пулу, работающему в кластере MATLAB Parallel Server™. Также можно использовать кластер Hadoop с поддержкой Spark, работающий под управлением MATLAB Parallel Server. Для получения дополнительной информации смотрите Рабочий процесс Больших данных с использованием высоких массивов и хранилищ данных.

Функции

расширить все

tallСоздайте длинный массив
datastoreСоздайте datastore для больших наборов данных
mapreduceМетод программирования для анализа наборов данных, которые не помещаются в памяти
mapreducerЗадайте окружение параллельного выполнения для mapreduce и длинные массивы
partitionРаздел datastore
numpartitionsКоличество разделов datastore
parpoolСоздайте параллельный пул в кластере
gcpПолучите текущий параллельный пул

Классы

расширить все

parallel.PoolПараллельный пул работников
parallel.cluster.HadoopКластер Hadoop для mapreducer, mapreduce и длинных массивов

Примеры и как

Рабочий процесс Больших данных с использованием высоких массивов и хранилищ данных

Узнайте о типичных рабочих процессах, использующих длинные массивы для анализа наборов больших данных.

Использование длинных массивов в параллельном пуле

Обнаружение длинных массивов в Parallel Computing Toolbox и MATLAB Parallel Server.

Обработка Больших данных в облаке

В этом примере показано, как получить доступ к большому набору данных в облаке и обработать его в облачном кластере с помощью возможностей MATLAB для больших данных.

Использование длинных массивов на кластере Hadoop с поддержкой Spark

Создайте и используйте длинные таблицы в кластерах Spark, не меняя код MATLAB.

Запуск mapreduce в параллельном пуле

Попробуй mapreduce для расширенного анализа больших данных с помощью Parallel Computing Toolbox.

Запуск mapreduce на кластере Hadoop

Узнать о mapreduce для расширенного анализа больших данных на кластере Hadoop.

Разбиение Datastore параллельно

Использовать partition чтобы разделить ваш datastore в меньшие части.

Концепции

Запуск кода в параллельных пулах

Узнайте о запуске и остановке параллельных пулов, размере пула и выборе кластера.

Задайте свои параллельные настройки

Задайте свои настройки и автоматически создайте параллельный пул.

Обнаружение кластеров и использование профилей кластеров

Узнайте, как работать с профилями кластеров и обнаружить облачные кластеры, работающие на EC2 Amazon.

Рекомендуемые примеры