У меня есть куча небольших файлов в каталоге HDFS. Хотя объем файлов относительно невелик, объем обработки в файле огромен. То есть, файл 64mb
, который является разделенным по умолчанию размером для TextInputFormat
, занимает несколько часов для обработки.
Что мне нужно сделать, это уменьшить размер разделения, чтобы я мог использовать еще больше узлов для задания.
Итак, вопрос в том, как можно разбить файлы, скажем, 10kb
? Нужно ли мне реализовать мои собственные InputFormat
и RecordReader
для этого, или есть ли какой-либо параметр для установки? Благодарю.