Длинные массивы и mapreduce

Анализируйте большие наборы данных в параллели с помощью длинных массивов MATLAB® и хранилищ данных или mapreduce на Spark® и кластерах Hadoop® и параллельных пулах

Можно использовать Parallel Computing Toolbox™, чтобы выполнить выражения длинного массива в параллели с помощью параллельного пула на рабочем столе. Используя длинные массивы позволяет вам запускать большие применения данных, которые не умещаются в памяти на вашей машине. Можно также использовать Parallel Computing Toolbox, чтобы увеличить обработку длинного массива путем соединения с параллельным пулом, работающим на кластере MATLAB Parallel Server™. В качестве альтернативы можно использовать включенный кластер Hadoop Spark рабочий MATLAB Parallel Server. Для получения дополнительной информации смотрите Рабочий процесс Больших данных с использованием высоких массивов и хранилищ данных.

Функции

развернуть все

tallСоздание tall array
datastoreСоздайте datastore для большого количества данных
mapreduceМетод программирования для анализа наборов данных, которые не умещаются в памяти
mapreducerЗадайте параллельную среду выполнения для mapreduce и длинных массивов
partitionРазделите datastore
numpartitionsКоличество разделов datastore
parpoolСоздайте параллельный пул на кластере
gcpПолучите текущий параллельный пул

Классы

развернуть все

parallel.PoolПараллельный пул рабочих
parallel.cluster.HadoopКластер Hadoop для mapreducer, mapreduce и длинных массивов

Примеры и руководства

Рабочий процесс Больших данных с использованием высоких массивов и хранилищ данных

Узнайте о типичных рабочих процессах с помощью длинных массивов, чтобы анализировать большие наборы данных.

Используйте длинные массивы на параллельном пуле

Узнайте длинные массивы в Parallel Computing Toolbox и MATLAB Parallel Server.

Обработка Больших данных в облаке

В этом примере показано, как получить доступ к большому набору данных в облаке и обработать его в кластере облака использование возможностей MATLAB больших данных.

Используйте длинные массивы на Spark Enabled кластер Hadoop

Создайте и используйте длинные таблицы на кластерах Spark, не изменяя ваш код MATLAB.

Запустите mapreduce на Параллельном Пуле

Попробовать mapreduce для усовершенствованного анализа больших данных с помощью Parallel Computing Toolbox.

Запустите mapreduce на Кластере Hadoop

Узнайте о mapreduce для усовершенствованного большого анализа данных кластера Hadoop.

Разделите Datastore параллельно

Использование partition разделять ваш datastore в меньшие части.

Концепции

Запустите код по параллельным пулам

Узнайте о запуске и остановке параллельных пулов, объедините размер и кластерный выбор.

Задайте свои параллельные настройки

Задайте свои настройки, и автоматически создайте параллельный пул.

Обнаружение кластеров и использование профилей кластеров

Узнайте, как работать с кластерными профилями и обнаружить кластеры облака, работающие на Amazon EC2.

Рекомендуемые примеры