У меня есть 1000+ файлов, доступных в HDFS с соглашением об именах от 1_fileName.txt
до N_fileName.txt
. Размер каждого файла - 1024 МБ.
Мне нужно объединить эти файлы в один (HDFS) с сохранением порядка файла. Скажем 5_FileName.txt
следует добавлять только после 4_fileName.txt
Каков наилучший и быстрый способ выполнить эту операцию.
Есть ли способ выполнить это слияние без копирования фактических данных между узлами данных? Для e-g: получить расположение блоков этих файлов и создать новую запись (имя_файла) в Namenode с этими расположениями блоков?