Как установить значения конфигурации hadoop из pyspark

Версия SparkContext Scala имеет свойство

 sc.hadoopConfiguration

Я успешно использовал это, чтобы установить свойства hadoop (в scala..)

например.

  sc.hadoopConfiguration.set("my.mapreduce.setting","someVal")

Однако в версии Python SparkContext отсутствует этот аксессор. Есть ли способ установить значения конфигурации hadoop в конфигурацию Hadoop, используемую контекстом pyspark?

Ответ 1

sc._jsc.hadoopConfiguration().set('my.mapreduce.setting', 'someVal')

должен работать

Ответ 2

Я просмотрел исходный код pyspark (context.py), и нет прямого эквивалента. Вместо этого некоторые конкретные методы поддерживают отправку на карте пар (ключ, значение):

fileLines = sc.newAPIHadoopFile('dev/*', 
'org.apache.hadoop.mapreduce.lib.input.TextInputFormat',
'org.apache.hadoop.io.LongWritable',
'org.apache.hadoop.io.Text',
conf={'mapreduce.input.fileinputformat.input.dir.recursive':'true'}
).count()

Ответ 3

При отправке задания вы можете установить любые свойства hadoop с помощью параметра --conf.

--conf "spark.hadoop.fs.mapr.trace=debug"