Я отправляю задание Spark для запуска в удаленном кластере, запустив
spark-submit ... --deploy-mode cluster --files some.properties ...
Я хочу прочитать содержимое файла some.properties
с помощью кода драйвера, т.е. до создания контекста Spark и запуска задач RDD. Файл копируется в удаленный драйвер, но не в рабочий каталог драйвера.
Способы этой проблемы, о которых я знаю, следующие:
- Загрузите файл в HDFS
- Сохраните файл в банке приложения
Оба неудобны, поскольку этот файл часто изменяется на отправляющей машине dev.
Есть ли способ прочитать файл, который был загружен с использованием флага --files
во время основного метода кода драйвера?