Для проекта Big Data я планирую использовать spark, в котором есть некоторые интересные функции, такие как вычисления в памяти для повторяющиеся рабочие нагрузки. Он может работать на локальных файлах или поверх HDFS.
Однако в официальной документации я не могу найти подсказки о том, как обрабатывать gzipped файлы. На практике это может быть довольно эффективно обрабатывать файлы .gz вместо распакованных файлов.
Есть ли способ вручную выполнить чтение gzipped файлов или разархивировать уже автоматически при чтении файла .gz?