Это концептуальный вопрос, связанный с Hadoop/HDFS. Допустим, у вас есть файл, содержащий 1 миллиард строк. И для простоты рассмотрим, что каждая строка имеет вид <k,v>
, где k - смещение строки от начала, а значение - это содержимое строки.
Теперь, когда мы говорим, что хотим запустить N задач карты, рамочно ли разбиение входного файла на N разделов и запуск каждой задачи карты на этом расщеплении? или нам нужно написать функцию секционирования, которая N разделяет и запускает каждую задачу карты при сгенерированном списании?
Все, что я хочу знать, состоит в том, выполняются ли разделение внутри, или мы должны разделить данные вручную?
В частности, каждый раз, когда вызывается функция map(), каковы ее параметры Key key and Value val
?
Спасибо, Дипак