matlab.mapreduce.DeploySparkMapReducer class

Пакет: matlab.mapreduce
Суперклассы:

Сконфигурируйте приложение длинного массива MATLAB параметрами Spark как пары "ключ-значение"

Описание

DeploySparkMapReducer объектно-ориентированная память параметры конфигурации приложения длинного массива, развертываемого на Spark™. Каждое приложение длинного массива должно быть сконфигурировано до того, чтобы быть развернутым на кластере Spark. Некоторые параметры конфигурации задают свойства приложения, и некоторые используются Spark, чтобы выделить ресурсы в кластере. Параметры конфигурации передаются на кластер Spark через mapreducer функция.

Конструкция

conf = matlab.mapreduce.DeploySparkMapReducer('AppName',name,'Master',url,'SparkProperties',prop) создает DeploySparkMapReducer объект с заданными параметрами конфигурации.

conf = matlab.mapreduce.DeploySparkMapReducer('AppName',name,'Master',url,'SparkProperties',prop,Name,Value) создает DeploySparkMapReducer объект с дополнительными параметрами конфигурации, заданными одной или несколькими парами значений - Name, Value. Name имя свойства класса и Value соответствующее значение. Name должен появиться в одинарных кавычках (''). Можно задать несколько аргументов пары "имя-значение" в любом порядке как Name1,Value1,...,NameN,ValueN.

Входные параметры

развернуть все

Имя приложения, заданного как вектор символов в одинарных кавычках ('').

Пример: 'AppName', 'myApp'

Типы данных: char | string

Имя основного URL, заданного как вектор символов в одинарных кавычках ('').

URLОписание
yarn-clientСоединитесь с Hadoop® Кластер YARN в клиентском режиме. Кластерное местоположение найдено на основе HADOOP_CONF_DIR или YARN_CONF_DIR переменная.

Пример: 'Master', 'yarn-client'

Типы данных: char | string

containers.Map объект, содержащий свойства настройки Spark как пары "ключ-значение".

При развертывании к кластеру YARN Hadoop, установленному значение для prop с соответствующими свойствами настройки Spark как пары "ключ-значение". Точный набор свойств настройки Spark варьируется от одного сценария развертывания до другого, на основе кластерной среды развертывания. Пользователи должны проверить настройку Spark с системным администратором, чтобы использовать соответствующие свойства настройки. См. таблицу для обычно используемых свойств Spark. Для полного набора свойств см. последнюю документацию Spark.

Под управлением Spark на YARN

Имя свойства (ключ)Значение по умолчанию (Значение)Описание
spark.executor.cores1

Количество ядер, чтобы использовать на каждом исполнителе.

Для автономного режима YARN и Spark только. В автономном режиме Spark, устанавливая этот параметр позволяет приложению запускать несколько исполнителей на том же рабочем, при условии, что существует достаточно ядер на том рабочем. В противном случае, только один исполнитель на выполнение приложения на каждом рабочем.

spark.executor.instances2

Количество исполнителей.

Примечание

Это свойство несовместимо с spark.dynamicAllocation.enabled. Если оба spark.dynamicAllocation.enabled и spark.executor.instances заданы, динамическое выделение выключено и конкретное количество spark.executor.instances используется.

spark.driver.memory

  • 1g

  • 2048m (рекомендуемый)

Объем памяти, чтобы использовать для процесса драйвера.

Если вы вытаскиваете кого-либо из ошибок памяти при использовании tall/gather, рассмотрите увеличение этого значения.

spark.executor.memory

  • 1g

  • 2048m (рекомендуемый)

Объем памяти, чтобы использовать на процесс исполнителя.

Если вы вытаскиваете кого-либо из ошибок памяти при использовании tall/gather, рассмотрите увеличение этого значения.

spark.yarn.executor.memoryOverhead

  • executorMemory * 0.10, с минимумом 384.

  • 4096m (рекомендуемый)

Сумма памяти вне кучи (в MBS), чтобы быть выделенным на исполнителя.

Если вы вытаскиваете кого-либо из ошибок памяти при использовании tall/gather, рассмотрите увеличение этого значения.

spark.dynamicAllocation.enabledfalse

Эта опция интегрирует Spark с управлением ресурсами YARN. Spark инициирует как можно больше исполнителей, учитывая требования к памяти исполнителя и количество ядер. Это свойство требует, чтобы кластер был настроен.

Установка этого свойства к true задает, использовать ли динамическое распределение ресурсов, которое масштабирует количество исполнителей, указанных с этим приложением вверх и вниз на основе рабочей нагрузки.

Это свойство требует spark.shuffle.service.enabled быть установленным. Следующие настройки также релевантны: spark.dynamicAllocation.minExecutors, spark.dynamicAllocation.maxExecutors, и spark.dynamicAllocation.initialExecutors

spark.shuffle.service.enabledfalse

Включает внешний сервис перестановки. Этот сервис сохраняет файлы перестановки, записанные исполнителями, таким образом, исполнители могут быть безопасно удалены. Это должно быть включено если spark.dynamicAllocation.enabled установлен в true. Внешний сервис перестановки должен быть настроен для того, чтобы включить его.

MATLAB определенные свойства

Имя свойства (ключ)Значение по умолчанию (Значение)Описание
spark.matlab.worker.debugfalseДля использования в автономном / интерактивном режиме только. Если установлено в истину, Spark развертываемое приложение MATLAB, выполняемое в среде рабочего стола MATLAB, запускает другой сеанс работы с MATLAB как рабочего и введет отладчик. Логгирование информации направлено к log_<nbr>.txt.
spark.matlab.worker.reusetrueКогда установлено в true, исполнитель Spark объединяет рабочих и снова использует их от одного этапа до следующего. Рабочие отключают, когда исполнитель, при котором запускаются рабочие, отключает.
spark.matlab.worker.profilefalseТолько допустимый при использовании сеанса MATLAB как рабочий. Когда установлено в true, это включает профилировщика MATLAB и генерирует отчет Профиля, который сохранен в файл profworker_<split_index>_<socket>_<worker pass>.mat.
spark.matlab.worker.numberOfKeys10000Количество уникальных клавиш, которые могут быть удержаны в containers.Map возразите при выполнении *ByKey операции перед данными о карте пролиты к файлу.
spark.matlab.executor.timeout600000

Тайм-аут исполнителя Spark в миллисекундах. Не применимый при развертывании длинных массивов.

Контроль и логгирование

Имя свойства (ключ)Значение по умолчанию (Значение)Описание
spark.history.fs.logDirectoryfile:/tmp/spark-events

Директория, которая содержит журналы событий приложения, чтобы загрузиться сервером истории.

spark.eventLog.dirfile:///tmp/spark-events

Основная директория, в которой события Spark регистрируются, если spark.eventLog.enabled true. В рамках этой основной директории Spark создает sub директорию для каждого приложения и регистрирует события, характерные для приложения в этой директории. Можно установить это на объединенное местоположение как директория HDFS™, таким образом, файлы истории могут быть считаны сервером истории.

spark.eventLog.enabledfalse

Регистрировать ли события Spark. Это полезно для восстановления веб-пользовательского интерфейса после того, как приложение закончилось.

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Вектор символов, задающий путь к MATLAB Runtime в одинарных кавычках ''.

Пример: 'MCRRoot', '/share/MATLAB/MATLAB_Runtime/v91'

Типы данных: char | string

Задайте логарифмический уровень, чтобы установить как вектор символов с логарифмическим уровнем, заключенным в ''.

Типы данных: char | string

Свойства

Свойства этого класса скрыты.

Методы

Нет никаких пользовательских исполнимых методов для этого класса.

Примеры

свернуть все

Задайте свойства Spark и создайте DeploySparkMapReducer объект.

sparkProperties = containers.Map( ...
 {'spark.executor.cores', ...
 'spark.executor.memory', ...
 'spark.yarn.executor.memoryOverhead', ...
 'spark.dynamicAllocation.enabled', ...
 'spark.shuffle.service.enabled', ...
 'spark.eventLog.enabled', ...
 'spark.eventLog.dir'}, ...
 {'1', ...
  '2g', ...
  '1024', ...
  'true', ...
  'true', ...
  'true', ...
  'hdfs://hadoopfs:54310/user/<username>/sparkdeploy'});

conf = matlab.mapreduce.DeploySparkMapReducer( ...
      'AppName','myTallApp', ...
      'Master','yarn-client', ...
      'SparkProperties',sparkProperties);

mapreducer(conf);
Введенный в R2017b