Я хотел бы установить spark.eventLog.enabled
и spark.eventLog.dir
на уровне spark-submit
или start-all
- не требует, чтобы он включался в коде scala/java/python.
Я пробовал разные вещи без успеха:
Настройка spark-defualts.conf
как
spark.eventLog.enabled true
spark.eventLog.dir hdfs://namenode:8021/directory
или
spark.eventLog.enabled true
spark.eventLog.dir file:///some/where
Запуск spark-submit
как:
spark-submit --conf "spark.eventLog.enabled=true" --conf "spark.eventLog.dir=file:///tmp/test" --master spark://server:7077 examples/src/main/python/pi.py
Исходная искра с переменными окружения:
SPARK_DAEMON_JAVA_OPTS="-Dspark.eventLog.enabled=true -Dspark.history.fs.logDirectory=$sparkHistoryDir -Dspark.history.provider=org.apache.spark.deploy.history.FsHistoryProvider -Dspark.history.fs.cleaner.enabled=true -Dspark.history.fs.cleaner.interval=2d"
и просто для overkill:
SPARK_HISTORY_OPTS="-Dspark.eventLog.enabled=true -Dspark.history.fs.logDirectory=$sparkHistoryDir -Dspark.history.provider=org.apache.spark.deploy.history.FsHistoryProvider -Dspark.history.fs.cleaner.enabled=true -Dspark.history.fs.cleaner.interval=2d"
Где и как должны быть установлены эти вещи для получения истории на произвольных работах?