Apache Spark DataFrameReader.json()
может обрабатывать файлы gzipped JSONlines автоматически, но, похоже, нет способа получить DataFrameWriter.json()
для записи сжатых файлов JSONlines. Дополнительный сетевой ввод-вывод очень дорог в облаке.
Есть ли способ решить эту проблему?