Новичок здесь с Hadoop. Концепция разумная, ее довольно просто понять, однако одной из реальных проблем является то, как смоделировать проблему, которая будет решена в архитектуре уменьшения карты. Предположим, что мои данные содержат две части (все в оракуле): 1. Скорее статические данные, которые не сильно меняются 2. Свежие данные, собранные каждый день.
и в настоящее время обработка данных в основном считывает свежие данные, находит и использует соответствующие статические данные (или метаданные) и применяет к ним некоторый алгоритм и возвращает его обратно в Oracle.
Как смоделировать такую прикладную парадигму? Сохранять/хранить статические данные как часть распределенного кеша? Что делать, если эти данные довольно большие?
В основном я ищу еще несколько примеров: http://stevekrenzel.com/finding-friends-with-mapreduce
Спасибо,