Объединение нескольких файлов в один из Hadoop

Я получаю несколько небольших файлов в свой каталог ввода, которые я хочу объединить в один файл, не используя локальную файловую систему или записывая карты. Есть ли способ, которым я мог бы это сделать, используя команды ifoof fs или Pig?

Спасибо!

Ответ 1

Для того, чтобы все в сетке использовало потоки хаопов с одним редуктором и кошкой в качестве картографа и редуктора (в основном, noop), добавьте сжатие с использованием флагов MR.

hadoop jar \
    $HADOOP_PREFIX/share/hadoop/tools/lib/hadoop-streaming.jar \<br>
    -Dmapred.reduce.tasks=1 \
    -Dmapred.job.queue.name=$QUEUE \
    -input "$INPUT" \
    -output "$OUTPUT" \
    -mapper cat \
    -reducer cat

Если вы хотите добавить сжатие
-Dmapred.output.compress = true \ -Dmapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec

Ответ 2

hadoop fs -getmerge <dir_of_input_files> <mergedsinglefile>

Ответ 3

okay... Я понял способ, используя команды hadoop fs -

hadoop fs -cat [dir]/* | hadoop fs -put - [destination file]

Он работал, когда я тестировал его... любые подводные камни, о которых можно подумать?

Спасибо!

Ответ 4

Если вы настроили плавкий предохранитель для монтирования HDFS в локальный каталог, то ваш выход может быть смонтированной файловой системой.

Например, у меня HDFS установлен на /mnt/hdfs локально. Я запускаю следующую команду, и она отлично работает:

hadoop fs -getmerge /reports/some_output /mnt/hdfs/reports/some_output.txt

Конечно, есть и другие причины использовать плавкий предохранитель для монтирования HDFS в локальный каталог, но для нас это был хороший побочный эффект.

Ответ 5

Вы можете использовать инструмент HDFSConcat, новый в HDFS 0.21, для выполнения этой операции без затрат на копирование.

Ответ 6

Если вы работаете в кластере Hortonworks и хотите объединить несколько файлов, присутствующих в местоположении HDFS, в один файл, вы можете запустить банку "hadoop-streaming-2.7.1.2.3.2.0-2950.jar", которая работает с одним редуктором и получить объединенный файл в местоположение вывода HDFS.

$hadoop jar/usr/hdp/2.3.2.0-2950/hadoop-mapreduce/hadoop -streaming-2.7.1.2.3.2.0-2950.jar\

-Dmapred.reduce.tasks=1 \
-input "/hdfs/input/dir" \
-output "/hdfs/output/dir" \
-mapper cat \
-reducer cat

Вы можете скачать эту банку из Получить банкомат потоковой передачи hadoop

Если вы пишете искровые задания и хотите получить объединенный файл, чтобы избежать нескольких созданий RDD и узких мест производительности, используйте этот фрагмент кода, прежде чем преобразовать RDD

sc.textFile("hdfs://...../part*).coalesce(1).saveAsTextFile("hdfs://...../filename)

Это объединит все файлы частей в один и сохранит их снова в hdfs location

Ответ 7

Адресация этого с точки зрения Apache Pig,

Чтобы слить два файла с одинаковой схемой через Pig, можно использовать команду UNION

 A = load 'tmp/file1' Using PigStorage('\t') as ....(schema1)
 B = load 'tmp/file2' Using PigStorage('\t') as ....(schema1) 
 C = UNION A,B
 store C into 'tmp/fileoutput' Using PigStorage('\t')

Ответ 8

Все решения эквивалентны выполнению

hadoop fs -cat [dir]/* > tmp_local_file  
hadoop fs -copyFromLocal tmp_local_file

это означает только то, что локальный m/c I/O находится на критическом пути передачи данных.