A containers.Map объект, содержащий свойства конфигурации Искра как пары ключ-значение.
При развертывании в кластере Hadoop YARN установите значение для prop с соответствующими свойствами конфигурации Spark в качестве пар ключ-значение. Точный набор свойств конфигурации Spark варьируется от одного сценария развертывания к другому в зависимости от среды кластера развертывания. Чтобы использовать соответствующие свойства конфигурации, пользователи должны проверить настройку Spark у системного администратора. Часто используемые свойства искры см. в таблице. Полный набор свойств см. в последней документации по Spark.
Запуск искры на YARN
| Имя свойства (ключ) | По умолчанию (значение) | Описание |
|---|
spark.executor.cores | 1 | Количество ядер, используемых каждым исполнителем. Только для автономного режима YARN и Spark. В автономном режиме Spark этот параметр позволяет приложению запускать несколько исполнителей на одном работнике при условии, что на этом работнике достаточно ядер. В противном случае на каждом работнике выполняется только один исполнитель для каждого приложения. |
spark.executor.instances | 2 | Число исполнителей.
Примечание Это свойство несовместимо с spark.dynamicAllocation.enabled. Если оба spark.dynamicAllocation.enabled и spark.executor.instances указаны, динамическое распределение отключено и указано количество spark.executor.instances используется.
|
spark.driver.memory |
| Объем памяти, используемой для процесса драйвера. Если при использовании возникают ошибки в памяти tall/gather, рассмотрите возможность увеличения этого значения. |
spark.executor.memory |
| Объем памяти для каждого процесса исполнителя. Если при использовании возникают ошибки в памяти tall/gather, рассмотрите возможность увеличения этого значения. |
spark.yarn.executor.memoryOverhead |
| Объем памяти вне кучи (в МБ), выделяемый исполнителю. Если при использовании возникают ошибки в памяти tall/gather, рассмотрите возможность увеличения этого значения. |
spark.dynamicAllocation.enabled | false | Этот параметр интегрирует Spark с управлением ресурсами YARN. Spark инициирует как можно больше исполнителей, учитывая требования к памяти исполнителя и количество ядер. Это свойство требует настройки кластера. Установка для этого свойства значения true указывает, следует ли использовать динамическое выделение ресурсов, которое позволяет масштабировать число исполнителей, зарегистрированных в этом приложении, в зависимости от рабочей нагрузки. Для этого свойства требуется spark.shuffle.service.enabled для установки. Также релевантны следующие конфигурации: spark.dynamicAllocation.minExecutors, spark.dynamicAllocation.maxExecutors, и spark.dynamicAllocation.initialExecutors |
spark.shuffle.service.enabled | false | Включает внешнюю службу тасования. Эта служба сохраняет файлы тасования, написанные исполнителями, чтобы их можно было безопасно удалить. Это должно быть включено, если spark.dynamicAllocation.enabled имеет значение true. Чтобы включить ее, необходимо настроить внешнюю службу тасования. |
Специальные свойства MATLAB
| Имя свойства (ключ) | По умолчанию (значение) | Описание |
|---|
spark.matlab.worker.debug | false | Только для использования в автономном/интерактивном режиме. Если установлено значение true, развертываемое приложение MATLAB Spark, выполняемое в среде рабочего стола MATLAB, запускает другой сеанс MATLAB в качестве рабочего и вводит отладчик. Информация регистрации направляется в log_<nbr>.txt. |
spark.matlab.worker.reuse | true | Если установлено значение true, исполнитель Spark объединяет работников и повторно использует их от одного этапа к следующему. Работники прекращают работу, когда исполнитель, под которым работают работники, прекращает работу. |
spark.matlab.worker.profile | false | Допустимо только при использовании сеанса MATLAB в качестве работника. Если установлено значение true, он включает профилировщик MATLAB и генерирует отчет о профиле, который сохраняется в файле profworker_<split_index>_<socket>_<worker pass>.mat. |
spark.matlab.worker.numberOfKeys | 10000 | Количество уникальных ключей, которые могут храниться в containers.Map объект при выполнении *ByKey операции перед тем, как данные карты будут разлиты в файл. |
spark.matlab.executor.timeout | 600000 | Время ожидания исполнителя искр в миллисекундах. Неприменимо при развертывании tall-массивов. |
Мониторинг и ведение журнала
| Имя свойства (ключ) | По умолчанию (значение) | Описание |
|---|
spark.history.fs.logDirectory | file:/tmp/spark-events | Каталог, содержащий журналы событий приложений, загружаемые сервером истории. |
spark.eventLog.dir | file:///tmp/spark-events | Базовый каталог, в котором регистрируются события Spark, если spark.eventLog.enabled является true. В этом базовом каталоге Spark создает подкаталоги для каждого приложения и регистрирует события, относящиеся к приложению, в этом каталоге. Можно установить унифицированное расположение, например, каталог HDFS™, чтобы архивные файлы могли считываться сервером истории. |
spark.eventLog.enabled | false | Следует ли регистрировать события Spark. Это полезно для восстановления веб-интерфейса пользователя после завершения приложения. |