exponenta event banner

Настройка кластера Hadoop

Параллельный код MATLAB ®, содержащийtall (MATLAB) массивы и mapreduce Функции (MATLAB) могут быть переданы кластеру Hadoop от соответствующим образом настроенных клиентов MATLAB.

Чтобы настроить клиент на выполнение кода MATLAB в кластере, необходимо иметь возможность отправки в кластер с намеченного клиентского компьютера. Клиентский компьютер должен иметь установку Hadoop ®, которая может получить доступ к кластеру вне MATLAB .

Многие дистрибутивы Hadoop не поддерживают прямой доступ клиентов Windows ® к кластерам на базе Linux ®. Пользователям клиентов Windows обычно необходимо настроить узел шлюза Linux, доступ к которому можно получить из клиента Windows через SSH или VNC. Затем к кластеру можно получить доступ с этого узла шлюза.

Конфигурация кластера

  1. Интеграция MATLAB Parallel Server™ с кластерной инфраструктурой. Инструкции см. в разделе Установка и настройка параллельного сервера MATLAB для сторонних планировщиков.

  2. Если кластер требует проверки подлинности Kerberos, убедитесь, что установки параллельного сервера MATLAB настроены правильно. Инструкции см. в разделе Проверка подлинности Kerberos.

Конфигурация клиента

  1. Убедитесь, что клиент имеет доступ к кластеру Hadoop вне MATLAB.

  2. Убедитесь, что установка клиента MATLAB настроена на проверку подлинности Kerberos, если этого требует кластер. Инструкции см. в разделе Проверка подлинности Kerberos.

Для доступа к кластеру из MATLAB установите parallel.cluster.Hadoop (Панель параллельных вычислений) с использованием следующих операторов.

setenv('HADOOP_HOME', '/path/to/hadoop/install')
cluster = parallel.cluster.Hadoop;

Использовать mapreducer (MATLAB) для указания mapreduce для запуска на объекте кластера Hadoop.

Примеры запуска параллельного кода MATLAB в кластере Hadoop см. в разделах Запуск mapreduction в кластере Hadoop (Parallel Computing Toolbox) и Использование массивов Tall в кластере Hadoop с поддержкой искр (Parallel Computing Toolbox).

Проверка подлинности Kerberos

Если кластер использует аутентификацию Kerberos, для которой требуется приложение Oracle ® Java ® Cryptography Extension, необходимо настроить все установки MATLAB и MATLAB Parallel Server. Если вы используете дистрибутивы Hortonworks ® или Cloudera ®, скорее всего, вам потребуется выполнить эти действия по настройке.

Инструкции по настройке одинаковы для клиентских и рабочих установок MATLAB.

Начиная с R2018b, настройте установку MATLAB, включив соответствующую политику безопасности в установке Java.

  1. В редакторе MATLAB откройте файл ${MATLAB_ROOT}/sys/java/jre/${ARCH}/jre/lib/security/java.security.

  2. Изменение строки

    #crypto.policy=unlimited
    кому
    crypto.policy=unlimited

Для предыдущих версий необходимо загрузить дополнительные файлы безопасности из Oracle.

  1. Загрузите zip-файл Oracle Java Cryptography Extension со страницы Oracle Java SE.

  2. Распакуйте загруженный zip-файл во временную папку.

  3. Заменить файлы local_policy.jar и US_export_policy.jar в папке ${MATLABROOT}/sys/java/jre/${ARCH}/jre/lib/security с загруженными версиями.

Поддержка версий Hadoop

  • MATLAB mapreduce поддерживается в кластерах Hadoop 2.x. Обратите внимание, что поддержка кластеров Hadoop 1.x удалена.

  • MATLAB высокие множества поддержаны на Spark™, позволил Hadoop 2.x группы. Можно использовать массивы tall на кластерах Hadoop с поддержкой Spark, поддерживающие все архитектуры для клиента, а также архитектуры Linux и Mac для кластера. Это включает в себя кросс-платформенную поддержку.

ФункциональностьРезультатИспользовать вместоВопросы совместимости
Поддержка запуска MATLAB mapreduce в кластерах Hadoop 1.x. ОшибкиИспользовать кластеры с установленным Hadoop 2.x для запуска MATLAB mapreduce. Перенос MATLAB mapreduce с Hadoop 1.x по Hadoop 2.x.

См. также

(Панель инструментов параллельных вычислений)

Связанные темы