Длинные» массивы и `mapreduce`

Параллельно анализируйте наборы больших данных с помощью MATLAB^® длинные массивы и datastores или mapreduce на Искру^® и Хадуп^® кластеры и параллельные пулы

Можно использовать Parallel Computing Toolbox™ для параллельного вычисления выражений длинный массив с помощью параллельного пула на рабочем столе. Использование длинные массивы позволяет запускать приложения больших данных, которые не помещаются в памяти на вашей машине. Можно также использовать Parallel Computing Toolbox для масштабирования обработки длинный массив путем подключения к параллельному пулу, работающему в кластере MATLAB Parallel Server™. Также можно использовать кластер Hadoop с поддержкой Spark, работающий под управлением MATLAB Parallel Server. Для получения дополнительной информации смотрите Рабочий процесс Больших данных с использованием высоких массивов и хранилищ данных.

Функции

расширить все

Ключевые функции

`tall`	Создайте длинный массив
`datastore`	Создайте datastore для больших наборов данных
`mapreduce`	Метод программирования для анализа наборов данных, которые не помещаются в памяти
`mapreducer`	Задайте окружение параллельного выполнения для mapreduce и длинные массивы
`partition`	Раздел datastore
`numpartitions`	Количество разделов datastore
`parpool`	Создайте параллельный пул в кластере
`gcp`	Получите текущий параллельный пул

Классы

расширить все

Классы ключей

`parallel.Pool`	Параллельный пул работников
`parallel.cluster.Hadoop`	Кластер Hadoop для mapreducer, mapreduce и длинных массивов

Примеры и как

Рабочий процесс Больших данных с использованием высоких массивов и хранилищ данных

Узнайте о типичных рабочих процессах, использующих длинные массивы для анализа наборов больших данных.

Использование длинных массивов в параллельном пуле

Обнаружение длинных массивов в Parallel Computing Toolbox и MATLAB Parallel Server.

Обработка Больших данных в облаке

В этом примере показано, как получить доступ к большому набору данных в облаке и обработать его в облачном кластере с помощью возможностей MATLAB для больших данных.

Использование длинных массивов на кластере Hadoop с поддержкой Spark

Создайте и используйте длинные таблицы в кластерах Spark, не меняя код MATLAB.

Запуск mapreduce в параллельном пуле

Попробуй mapreduce для расширенного анализа больших данных с помощью Parallel Computing Toolbox.

Запуск mapreduce на кластере Hadoop

Узнать о mapreduce для расширенного анализа больших данных на кластере Hadoop.

Разбиение Datastore параллельно

Использовать partition чтобы разделить ваш datastore в меньшие части.