Я новичок в hadoop и пытаюсь обработать википедии. Это сжатый XML файл размером 6,7 ГБ. Я читал, что hasoop поддерживает сжатые файлы gzip, но может обрабатываться только картографом только на одном задании, так как только один обработчик может его распаковать. Это, по-видимому, ограничивает обработку. Есть ли альтернатива? например, распаковывать и разбивать xml файл на несколько фрагментов и повторно сжимать их с помощью gzip.
Я прочитал о hadoop gzip из http://researchcomputing.blogspot.com/2008/04/hadoop-and-compressed-files.html
Спасибо за вашу помощь.