containers.Map
объект, содержащий свойства настройки Spark как пары "ключ-значение".
При развертывании к кластеру YARN Hadoop, установленному значение для prop
с соответствующими свойствами настройки Spark как пары "ключ-значение". Точный набор свойств настройки Spark варьируется от одного сценария развертывания до другого, на основе кластерной среды развертывания. Пользователи должны проверить настройку Spark с системным администратором, чтобы использовать соответствующие свойства настройки. См. таблицу для обычно используемых свойств Spark. Для полного набора свойств см. последнюю документацию Spark.
Под управлением Spark на YARN
Имя свойства (ключ) | Значение по умолчанию (Значение) | Описание |
---|
spark.executor.cores | 1
| Количество ядер, чтобы использовать на каждом исполнителе. Для автономного режима YARN и Spark только. В автономном режиме Spark, устанавливая этот параметр позволяет приложению запускать несколько исполнителей на том же рабочем, при условии, что существует достаточно ядер на том рабочем. В противном случае, только один исполнитель на выполнение приложения на каждом рабочем. |
spark.executor.instances | 2
| Количество исполнителей.
ПримечаниеЭто свойство несовместимо с spark.dynamicAllocation.enabled . Если оба spark.dynamicAllocation.enabled и spark.executor.instances заданы, динамическое выделение выключено и конкретное количество spark.executor.instances используется.
|
spark.driver.memory |
| Объем памяти, чтобы использовать в процессе драйвера. Если вы вытаскиваете кого-либо из ошибок памяти при использовании tall/gather , рассмотрите увеличение этого значения. |
spark.executor.memory |
| Объем памяти, чтобы использовать на процесс исполнителя. Если вы вытаскиваете кого-либо из ошибок памяти при использовании tall/gather , рассмотрите увеличение этого значения. |
spark.yarn.executor.memoryOverhead |
| Сумма памяти вне кучи (в MBS), чтобы быть выделенным на исполнителя. Если вы вытаскиваете кого-либо из ошибок памяти при использовании tall/gather , рассмотрите увеличение этого значения. |
spark.dynamicAllocation.enabled | false | Эта опция интегрирует Spark с управлением ресурсами YARN. Spark инициирует как можно больше исполнителей, учитывая требования к памяти исполнителя и количество ядер. Это свойство требует, чтобы кластер был настроен. Установка этого свойства к true задает, использовать ли динамическое распределение ресурсов, которое масштабирует количество исполнителей, указанных с этим приложением вверх и вниз на основе рабочей нагрузки. Это свойство требует spark.shuffle.service.enabled быть установленным. Следующие настройки также релевантны: spark.dynamicAllocation.minExecutors , spark.dynamicAllocation.maxExecutors , и spark.dynamicAllocation.initialExecutors |
spark.shuffle.service.enabled | false | Включает внешний сервис перестановки. Этот сервис сохраняет файлы перестановки, записанные исполнителями, таким образом, исполнители могут быть безопасно удалены. Это должно быть включено если spark.dynamicAllocation.enabled установлен в true . Внешний сервис перестановки должен быть настроен для того, чтобы включить его. |
MATLAB определенные свойства
Имя свойства (ключ) | Значение по умолчанию (Значение) | Описание |
---|
spark.matlab.worker.debug | false | Для использования в автономном / интерактивном режиме только. Если установлено в истину, Spark развертываемое приложение MATLAB, выполняемое в среде рабочего стола MATLAB, запускает другой сеанс работы с MATLAB как рабочего и введет отладчик. Логгирование информации направлено к log_<nbr>.txt . |
spark.matlab.worker.reuse | true | Когда установлено в true , исполнитель Spark объединяет рабочих и снова использует их от одного этапа до следующего. Рабочие отключают, когда исполнитель, при котором запускаются рабочие, отключает. |
spark.matlab.worker.profile | false | Только допустимый при использовании сеанса MATLAB как рабочий. Когда установлено в true , это включает профилировщика MATLAB и генерирует отчет Профиля, который сохранен в файл profworker_<split_index>_<socket>_<worker pass>.mat . |
spark.matlab.worker.numberOfKeys | 10000
| Количество уникальных клавиш, которые могут быть удержаны в containers.Map возразите при выполнении *ByKey операции перед данными о карте пролиты к файлу. |
spark.matlab.executor.timeout | 600000
| Тайм-аут исполнителя Spark в миллисекундах. Не применимый при развертывании длинных массивов. |
Контроль и логгирование
Имя свойства (ключ) | Значение по умолчанию (Значение) | Описание |
---|
spark.history.fs.logDirectory | file:/tmp/spark-events | Директория, которая содержит журналы событий приложения, чтобы загрузиться сервером истории. |
spark.eventLog.dir | file:///tmp/spark-events | Основная директория, в которой события Spark регистрируются, если spark.eventLog.enabled true . В рамках этой основной директории Spark создает sub директорию для каждого приложения и регистрирует события, характерные для приложения в этой директории. Можно установить это на объединенное местоположение как директория HDFS™, таким образом, файлы истории могут быть считаны сервером истории. |
spark.eventLog.enabled | false | Регистрировать ли события Spark. Это полезно для восстановления веб-пользовательского интерфейса после того, как приложение закончилось. |