Длинные массивы и `mapreduce`

Анализируйте большие наборы данных в параллели с помощью длинных массивов MATLAB^® и хранилищ данных или mapreduce на Spark^® и кластерах Hadoop^® и параллельных пулах

Можно использовать Parallel Computing Toolbox™, чтобы выполнить выражения длинного массива в параллели с помощью параллельного пула на рабочем столе. Используя длинные массивы позволяет вам запускать большие применения данных, которые не умещаются в памяти на вашей машине. Можно также использовать Parallel Computing Toolbox, чтобы увеличить обработку длинного массива путем соединения с параллельным пулом, работающим на кластере MATLAB Parallel Server™. В качестве альтернативы можно использовать включенный кластер Hadoop Spark рабочий MATLAB Parallel Server. Для получения дополнительной информации смотрите Рабочий процесс Больших данных с использованием высоких массивов и хранилищ данных.

Функции

развернуть все

Ключевые функции

`tall`	Создание tall array
`datastore`	Создайте datastore для большого количества данных
`mapreduce`	Метод программирования для анализа наборов данных, которые не умещаются в памяти
`mapreducer`	Задайте параллельную среду выполнения для mapreduce и длинных массивов
`partition`	Разделите datastore
`numpartitions`	Количество разделов datastore
`parpool`	Создайте параллельный пул в кластере
`gcp`	Получите текущий параллельный пул

Классы

развернуть все

Ключевые классы

`parallel.Pool`	Параллельный пул рабочих
`parallel.cluster.Hadoop`	Кластер Hadoop для mapreducer, mapreduce и длинных массивов

Примеры и руководства

Рабочий процесс Больших данных с использованием высоких массивов и хранилищ данных

Узнайте о типичных рабочих процессах с помощью длинных массивов, чтобы анализировать большие наборы данных.

Используйте длинные массивы на параллельном пуле

Узнайте длинные массивы в Parallel Computing Toolbox и MATLAB Parallel Server.

Обработка Больших данных в облаке

В этом примере показано, как получить доступ к большому набору данных в облаке и обработать его в кластере облака использование возможностей MATLAB больших данных.

Используйте длинные массивы на Spark Enabled кластер Hadoop

Создайте и используйте длинные таблицы в кластерах Spark, не изменяя ваш код MATLAB.

Запустите mapreduce на Параллельном Пуле

Попробовать mapreduce для усовершенствованного анализа больших данных с помощью Parallel Computing Toolbox.

Запустите mapreduce в Кластере Hadoop

Узнайте о mapreduce для усовершенствованного большого анализа данных кластера Hadoop.

Разделите Datastore параллельно

Использование partition разделять ваш datastore в меньшие части.