Настройка кластера Hadoop

Параллельный MATLAB® код, который содержит tall (MATLAB) массивы и mapreduce Функции (MATLAB) могут быть переданы в кластер Hadoop от соответствующих настроенных клиентов MATLAB.

Чтобы настроить клиент для запуска кода MATLAB на кластере, необходимо уже иметь возможность отправки в кластер с предполагаемого клиентского компьютера. Клиентская машина должна иметь Hadoop® установка, которая может получить доступ к кластеру за пределами MATLAB.

Многие распределения Hadoop не поддерживают прямой доступ к Linux® кластеры на основе Windows® клиентов. Пользователям клиентов Windows обычно необходимо настроить узел шлюза Linux, к которому можно получить доступ из клиента Windows через SSH или VNC. После этого можно получить доступ к кластеру с этого узла шлюза.

Строение кластера

  1. Интеграция MATLAB Parallel Server™ с инфраструктурой кластера. Инструкции см. в разделе Установка и настройка MATLAB Parallel Server для сторонних планировщиков.

  2. Если кластеру требуется проверка подлинности Kerberos, убедитесь, что установка MATLAB Parallel Server настроена правильно. Инструкции см. в разделе Проверка подлинности Kerberos.

Строение клиента

  1. Убедитесь, что ваш клиент имеет доступ к кластеру Hadoop за пределами MATLAB.

  2. Убедитесь, что установка MATLAB клиента настроена для проверки подлинности Kerberos, если это требуется кластеру. Инструкции см. в разделе Проверка подлинности Kerberos.

Чтобы получить доступ к кластеру из MATLAB, настройте parallel.cluster.Hadoop (Parallel Computing Toolbox) с помощью следующих операторов.

setenv('HADOOP_HOME', '/path/to/hadoop/install')
cluster = parallel.cluster.Hadoop;

Использование mapreducer (MATLAB) для задания mapreduce для выполнения с объектом кластера Hadoop.

Для примеров запуска параллельного кода MATLAB на кластере Hadoop смотрите Запуск mapreduce на кластере Hadoop (Parallel Computing Toolbox) и Использование длинных массивов на кластере Hadoop с поддержкой Spark (Parallel Computing Toolbox).

Проверка подлинности Kerberos

Если кластер использует проверку подлинности Kerberos, которая требует Oracle® Java® Cryptography Extension, необходимо сконфигурировать все установки MATLAB и MATLAB Parallel Server. Если вы используете Hortonworks® или Cloudera® распределения, вероятно, вам нужно выполнить эти шаги строения.

Инструкции по строению являются одинаковыми для клиентских и рабочих установок MATLAB.

Начиная с R2018b, настройте установку MATLAB, включив соответствующую политику безопасности в установке Java.

  1. В редакторе MATLAB откройте файл ${MATLAB_ROOT}/sys/java/jre/${ARCH}/jre/lib/security/java.security.

  2. Измените линию

    #crypto.policy=unlimited
    кому
    crypto.policy=unlimited

Для предыдущих релизов необходимо загрузить дополнительные файлы безопасности из Oracle.

  1. Загрузите zip- файла Oracle Java Cryptography Extension со страницы Oracle Java SE.

  2. Разархивируйте загруженные zip- файла во временную папку.

  3. Замените файлы local_policy.jar и US_export_policy.jar в папке ${MATLABROOT}/sys/java/jre/${ARCH}/jre/lib/security с загруженными версиями.

Поддержка версий Hadoop

  • MATLAB- mapreduce поддерживается в кластерах Hadoop 2.x. Обратите внимание, что поддержка кластеров Hadoop 1.x была удалена.

  • MATLAB длинные массивы поддерживаются на Spark™ кластерах Hadoop 2.x. Можно использовать длинные массивы в кластерах Hadoop с поддержкой Spark, поддерживающих все архитектуры для клиента, при поддержке архитектур Linux и Mac для кластера. Это включает поддержку кросс-платформ.

ФункциональностьРезультатИспользование вместо этогоВопросы совместимости
Поддержка запуска MATLAB mapreduce в кластерах Hadoop 1.x был удален. ОшибкиИспользуйте кластеры с установленным Hadoop 2.x, чтобы запустить MATLAB mapreduce. Миграция mapreduce MATLAB код, который работает на Hadoop 1.x до Hadoop 2.x.

См. также

(Parallel Computing Toolbox)

Похожие темы