У нас есть большой набор данных для анализа с помощью нескольких сокращений.
Все алгоритмы сокращают работают на одном наборе данных, сгенерированном той же самой функцией map. Чтение большого набора данных стоит слишком много, чтобы делать это каждый раз, было бы лучше читать только один раз и передавать отображаемые данные в несколько сокращать.
Могу ли я сделать это с помощью Hadoop? Я искал примеры и intarweb, но я не мог найти никаких решений.