Я читаю о MapReduce, и следующее меня смущает.
Предположим, у нас есть файл с 1 миллионом записей (целые числа), и мы хотим отсортировать их с помощью MapReduce. То, как я понял это, выглядит следующим образом:
Напишите функцию сопоставления, которая сортирует целые числа. Таким образом, структура разделит входной файл на несколько фрагментов и предоставит их другим картографам. Каждый сортировщик будет сортировать свой блок данных независимо друг от друга. Как только все мапперы будут выполнены, мы передадим каждый из их результатов редуктору, и он объединит результат и даст мне окончательный результат.
Мое сомнение в том, что, если у нас есть один редуктор, то как он использует распределенную структуру, если, в конечном итоге, мы должны объединить результат в одном месте?. Проблема сводится к объединению 1 миллиона записей в одном месте. Это так или я чего-то не хватает?
Спасибо, Chander