A containers.Map
объект, содержащий свойства строения Spark в виде пар "ключ-значение".
При развертывании на кластере Hadoop YARN задайте значение для prop
с соответствующими свойствами строения Spark в виде пар "ключ-значение". Точный набор свойств строения Spark варьируется от одного сценария развертывания к другому в зависимости от окружения кластера развертывания. Пользователи должны проверить настройку Spark с системным администратором, чтобы использовать соответствующие свойства строения. Обычно используемые свойства Spark см. в таблице. Полный набор свойств см. в последней документации Spark.
Запуск искры на ПРП
Имя свойства (ключ) | По умолчанию (значение) | Описание |
---|
spark.executor.cores | 1 | Количество ядер для использования в каждом исполнителе. Только для автономных режимов YARN и Spark. В автономном режиме Spark установка этого параметра позволяет приложению запускать несколько исполнителей на том же работнике при условии, что на этом работнике достаточно ядер. В противном случае каждый рабочий процесс запускается только по одному исполнителю. |
spark.executor.instances | 2 | Количество исполнителей.
Примечание Это свойство несовместимо с spark.dynamicAllocation.enabled . Если оба spark.dynamicAllocation.enabled и spark.executor.instances заданы, динамическое выделение отключено и задано количество spark.executor.instances используется.
|
spark.driver.memory |
| Объем памяти, используемый для процесса драйвера. Если вы получаете какие-либо ошибки памяти при использовании tall/gather , рассмотрите увеличение этого значения. |
spark.executor.memory |
| Объем памяти для использования в каждом процессе исполнителя. Если вы получаете какие-либо ошибки памяти при использовании tall/gather , рассмотрите увеличение этого значения. |
spark.yarn.executor.memoryOverhead |
| Объем запоминающей памяти (в МБ), выделяемый каждому исполнителю. Если вы получаете какие-либо ошибки памяти при использовании tall/gather , рассмотрите увеличение этого значения. |
spark.dynamicAllocation.enabled | false | Эта опция интегрирует Spark с управлением ресурсами YARN. Spark инициирует как можно больше исполнителей, учитывая потребность в памяти исполнителя и количество ядер. Это свойство требует настройки кластера. Установка значения свойства true определяет, использовать ли динамическое выделение ресурсов, которое масштабирует количество исполнителей, зарегистрированных в этом приложении, вверх и вниз на основе рабочей нагрузки. Это свойство требует spark.shuffle.service.enabled будет установлен. Также релевантны следующие строения spark.dynamicAllocation.minExecutors , spark.dynamicAllocation.maxExecutors , и spark.dynamicAllocation.initialExecutors |
spark.shuffle.service.enabled | false | Включает службу внешнего тасования. Эта служба сохраняет файлы shuffle, записанные исполнителями, чтобы можно было безопасно удалить исполнители. Это должно быть включено, если spark.dynamicAllocation.enabled установлено в true . Чтобы включить службу внешнего тасования, ее необходимо настроить в порядок. |
Специфические свойства MATLAB
Имя свойства (ключ) | По умолчанию (значение) | Описание |
---|
spark.matlab.worker.debug | false | Для использования только в автономном/интерактивном режиме. Если установлено значение true, развертываемое приложение MATLAB Spark, выполняемое в среде рабочего стола MATLAB, запускает другой сеанс работы с MATLAB как рабочий и будет входить в отладчик. Логгирование информация направлено на log_<nbr>.txt . |
spark.matlab.worker.reuse | true | Когда установлено значение true исполнитель Spark объединяет рабочие места и повторно использует их с одного этапа на следующий. Работа завершается, когда исполнитель, под которым работают работники, прекращает работать. |
spark.matlab.worker.profile | false | Действителен только при использовании сеанса MATLAB в качестве рабочего. Когда установлено значение true он включает Профилировщика MATLAB и генерирует отчет Profile, который сохраняется в файле profworker_<split_index>_<socket>_<worker pass>.mat . |
spark.matlab.worker.numberOfKeys | 10000 | Количество уникальных ключей, которые могут храниться в containers.Map объект при выполнении *ByKey операции перед разливом данных карты в файл. |
spark.matlab.executor.timeout | 600000 | Тайм-аут исполнителя искры в миллисекундах. Не применяется при развертывании длинных массивов. |
Мониторинг и логгирование
Имя свойства (ключ) | По умолчанию (значение) | Описание |
---|
spark.history.fs.logDirectory | file:/tmp/spark-events | Директория, содержащий журналы событий приложений, загружаемые сервером истории. |
spark.eventLog.dir | file:///tmp/spark-events | Базовая директория, в котором регистрируются события Spark, если spark.eventLog.enabled является true . В этом базовом каталоге Spark создает подкаталог для каждого приложения и регистрирует события, характерные для приложения, в этом каталоге. Вы можете задать это в унифицированном расположении, подобном директории HDFS™, чтобы архивные файлы могли считываться сервером истории. |
spark.eventLog.enabled | false | Регистрировать ли события Spark. Это полезно для восстановления веб-интерфейса пользователя после завершения работы приложения. |