Я начал изучать Hadoop. Если мое понимание правильное, я могу обработать очень большой файл, и он будет разделен на разные узлы, однако если файл сжат, то файл не может быть разделен, а wold должен обрабатываться одним node (эффективно уничтожая преимущество выполнения mapreduce ver кластера параллельных машин).
Мой вопрос: если предположить, что это правильно, можно ли разбить большой файл вручную в куски фиксированного размера или на ежедневные куски, сжать их, а затем передать список сжатых входных файлов для выполнения mapreduce?