Настройка кластера Hadoop

Параллельный MATLAB® код, который содержит tall (MATLAB) массивы и mapreduce Функции (MATLAB) могут быть переданы в кластер Hadoop от соответствующих настроенных клиентов MATLAB.

Чтобы настроить клиент для запуска кода MATLAB на кластере, необходимо уже иметь возможность отправки в кластер с предполагаемого клиентского компьютера. Клиентская машина должна иметь Hadoop® установка, которая может получить доступ к кластеру за пределами MATLAB.

Многие распределения Hadoop не поддерживают прямой доступ к Linux® кластеры на основе Windows® клиентов. Пользователям клиентов Windows обычно необходимо настроить узел шлюза Linux, к которому можно получить доступ из клиента Windows через SSH или VNC. После этого можно получить доступ к кластеру с этого узла шлюза.

Строение кластера

  1. Интеграция MATLAB Parallel Server™ с инфраструктурой кластера. Инструкции см. в разделе Установка и настройка MATLAB Parallel Server для сторонних планировщиков.

  2. Если кластеру требуется проверка подлинности Kerberos, убедитесь, что установка MATLAB Parallel Server настроена правильно. Инструкции см. в разделе Проверка подлинности Kerberos.

Строение клиента

  1. Убедитесь, что ваш клиент имеет доступ к кластеру Hadoop за пределами MATLAB.

  2. Убедитесь, что установка MATLAB клиента настроена для проверки подлинности Kerberos, если это требуется кластеру. Инструкции см. в разделе Проверка подлинности Kerberos.

Чтобы получить доступ к кластеру из MATLAB, настройте parallel.cluster.Hadoop (Parallel Computing Toolbox) с помощью следующих операторов.

setenv('HADOOP_HOME', '/path/to/hadoop/install')
cluster = parallel.cluster.Hadoop;

Использование mapreducer (MATLAB) для задания mapreduce для выполнения с объектом кластера Hadoop.

Для примеров запуска параллельного кода MATLAB на кластере Hadoop смотрите Запуск mapreduce на кластере Hadoop (Parallel Computing Toolbox) и Использование длинных массивов на кластере Hadoop с поддержкой Spark (Parallel Computing Toolbox).

Проверка подлинности Kerberos

Если кластер использует проверку подлинности Kerberos, которая требует Oracle® Java® Cryptography Extension, необходимо сконфигурировать все установки MATLAB и MATLAB Parallel Server. Если вы используете Hortonworks® или Cloudera® распределения, вероятно, вам нужно выполнить эти шаги строения.

Инструкции по строению являются одинаковыми для клиентских и рабочих установок MATLAB.

Начиная с R2018b, настройте установку MATLAB, включив соответствующую политику безопасности в установке Java.

  1. В редакторе MATLAB откройте файл ${MATLAB_ROOT}/sys/java/jre/${ARCH}/jre/lib/security/java.security.

  2. Измените линию

    #crypto.policy=unlimited
    кому
    crypto.policy=unlimited

Для предыдущих релизов необходимо загрузить дополнительные файлы безопасности из Oracle.

  1. Загрузите zip- файла Oracle Java Cryptography Extension со страницы Oracle Java SE.

  2. Разархивируйте загруженные zip- файла во временную папку.

  3. Замените файлы local_policy.jar и US_export_policy.jar в папке ${MATLABROOT}/sys/java/jre/${ARCH}/jre/lib/security с загруженными версиями.

Поддержка версий Hadoop

  • MATLAB- mapreduce поддерживается в кластерах Hadoop 2.x. Обратите внимание, что поддержка кластеров Hadoop 1.x была удалена.

  • MATLAB длинные массивы поддерживаются на Spark™ кластерах Hadoop 2.x. Можно использовать длинные массивы в кластерах Hadoop с поддержкой Spark, поддерживающих все архитектуры для клиента, при поддержке архитектур Linux и Mac для кластера. Это включает поддержку кросс-платформ.

ФункциональностьРезультатИспользование вместо этогоВопросы совместимости
Поддержка запуска MATLAB mapreduce в кластерах Hadoop 1.x был удален. ОшибкиИспользуйте кластеры с установленным Hadoop 2.x, чтобы запустить MATLAB mapreduce. Миграция mapreduce MATLAB код, который работает на Hadoop 1.x до Hadoop 2.x.

См. также

(Parallel Computing Toolbox)

Похожие темы

Для просмотра документации необходимо авторизоваться на сайте