Каков наилучший способ запуска Map/Reduce на данные из Mongo?

У меня есть большая база данных Mongo (100 ГБ), размещенная в облаке (MongoLab или MongoHQ). Я хотел бы запустить некоторые задачи Map/Reduce для данных, чтобы вычислить некоторые дорогие статистические данные, и задавался вопросом, какой лучший рабочий процесс для этого делается. В идеале я бы хотел использовать Amazon Map/Reduce, чтобы это сделать, а не поддерживать собственный кластер Hadoop.

Имеет ли смысл копировать данные из базы данных в S3. Затем запустите Amazon Map/Reduce на нем? Или есть лучшие способы сделать это.

Также, если дальше по строке я могу часто запускать запросы, как каждый день, поэтому данные на S3 должны были бы отражать то, что находится в Mongo, это усложнит ситуацию?

Любые предложения/истории войны были бы очень полезны.

Ответ 1