Сконфигурируйте кластер Hadoop

Параллельный MATLAB^® код, который содержит tall (MATLAB) массивы и mapreduce (MATLAB) функции может быть представлен кластеру Hadoop от соответственно сконфигурированных клиентов MATLAB.

Чтобы сконфигурировать клиент, чтобы запустить код MATLAB по кластеру, необходимо уже смочь подчиниться кластеру от намеченной клиентской машины. Клиентская машина должна иметь Hadoop^® установка, которая может получить доступ к кластеру за пределами MATLAB.

Много распределений Hadoop не поддерживают прямой доступ Linux^® основанные кластеры от Windows^® клиенты. Пользователи клиентов Windows обычно должны настраивать узел шлюза Linux, к которому можно получить доступ от клиента Windows через SSH или VNC. К кластеру можно затем получить доступ от этого узла шлюза.

Кластерная конфигурация

Интегрируйте MATLAB Parallel Server™ со своей кластерной инфраструктурой. Для инструкций смотрите Установку и Сконфигурируйте MATLAB Parallel Server для Сторонних Планировщиков.
Если ваш кластер требует аутентификации Kerberos, гарантируйте, что ваши установки MATLAB Parallel Server были сконфигурированы правильно. Для инструкций смотрите Аутентификацию Kerberos.

Клиентская настройка

Гарантируйте, что ваш клиент может получить доступ к кластеру Hadoop вне MATLAB.
Обеспечьте вашему клиенту, установка MATLAB была сконфигурирована для аутентификации Kerberos, если ваш кластер требует его. Для инструкций смотрите Аутентификацию Kerberos.

Чтобы получить доступ к кластеру из MATLAB, настройте parallel.cluster.Hadoop Объект (Parallel Computing Toolbox) с помощью следующих операторов.

setenv('HADOOP_HOME', '/path/to/hadoop/install')
cluster = parallel.cluster.Hadoop;

Используйте mapreducer (MATLAB), чтобы задать mapreduce работать на объекте кластера Hadoop.

Для примеров того, как идти параллельно код MATLAB по вашему кластеру Hadoop, см. mapreduce Запуска в Кластере Hadoop (Parallel Computing Toolbox) и Длинные массивы Использования на Spark Enabled Кластер Hadoop (Parallel Computing Toolbox).

Аутентификация Kerberos

Если кластер использует аутентификацию Kerberos, которая требует Oracle^® Java^® Расширение криптографии, необходимо сконфигурировать все установки MATLAB и MATLAB Parallel Server. Если вы используете Hortonworks^® или Cloudera^® распределения, вероятно, что необходимо завершить эти шаги настройки.

Инструкции по настройке являются тем же самым для клиента и рабочего установки MATLAB.

При запуске в R2018b сконфигурируйте установку MATLAB путем включения соответствующей политики безопасности в установке Java.

В редакторе MATLAB откройте файл ${MATLAB_ROOT}/sys/java/jre/${ARCH}/jre/lib/security/java.security.

Измените линию

#crypto.policy=unlimited

crypto.policy=unlimited

Для предыдущих релизов необходимо загрузить дополнительные файлы защиты с Oracle.

Загрузите zip-файл Расширения Криптографии Oracle Java со страницы Oracle Java SE.
Разархивируйте загруженный zip-файл во временную папку.
Замените файлы local_policy.jar и US_export_policy.jar в папке ${MATLABROOT}/sys/java/jre/${ARCH}/jre/lib/security с загруженными версиями.

Поддержка версии Hadoop

MATLAB mapreduce поддерживается на Hadoop 2.x кластеры. Обратите внимание на то, что поддержка Hadoop 1.x кластеры была удалена.
Длинные массивы MATLAB поддерживаются на Spark™, включенном Hadoop 2.x кластеры. Можно использовать длинные массивы во включенных кластерах Hadoop Spark, поддерживающих все архитектуры для клиента при поддержке архитектур Linux и Mac для кластера. Это включает кросс-платформенную поддержку.

Функциональность	Результат	Используйте вместо этого	Вопросы совместимости
Поддержка рабочего MATLAB `mapreduce` на Hadoop 1.x кластеры был удален.	Ошибки	Используйте кластеры, которые имеют Hadoop 2.x установленный, чтобы запустить MATLAB `mapreduce`.	Переместите MATLAB `mapreduce` код, который работает на Hadoop 1.x к Hadoop 2.x.

Смотрите также

parallel.cluster.Hadoop (Parallel Computing Toolbox)

Документация