Флюма против кафки против других

Возможно, этот вопрос задан раньше, но я считаю, что сегодня хорошо подумать об этом, учитывая, что эти технологии созрели. Мы хотим использовать один из flume, kafka, писца или других, чтобы хранить потоковые данные facebook и twitter профиля в hbase для последующего анализа. Мы рассматриваем лоток для этой цели, но я не работал с другими технологиями, чтобы принять взвешенное решение. Любой, кто может пролить свет, будет замечательным! Большое спасибо.

Ответ 1

Mediawiki (Википедия) прошла через это и опубликовала хорошую статью о том, как они пришли к своему выбору (Кафка) против Scribe, Flume и других.

http://www.mediawiki.org/wiki/Analytics/Kraken/Request_Logging

новая ссылка:
https://wikitech.wikimedia.org/wiki/Analytics/Archive/Hadoop_Logging_-_Solutions_Recommendation

Резюме для потомков:

"Наша рекомендация - Apache Kafka, распределенная система обмена сообщениями pub-sub, предназначенная для обеспечения пропускной способности. Мы оценили около десятка [1] лучших в своем классе систем, полученных из областей распределенного сбора журналов, обработки CEP/потока и в режиме реального времени. Системы обмена сообщениями. Хотя эти системы предлагают удивительно похожие функции, они существенно различаются по реализации, и каждая из них специализируется на конкретном рабочем профиле (более подробное техническое обсуждение доступно в качестве приложения).

"Кафка выделяется тем, что он специализируется на пропускной способности и явно распределен по всем уровням своей архитектуры. Интересно, что он также достаточно озабочен сохранением ресурсов [2], чтобы предложить разумные компромиссы, которые ослабляют гарантии в обмен на производительность - что-то, что может не затронуть Facebook или Google как важная функция в системах, которые они проектируют. Ограничения порождают креативность.

"Кроме того, у Kafka есть несколько привилегий, представляющих особый интерес для читателей Operations. Хотя она написана на Scala, она поставляется с собственной библиотекой производителя C++, которая может быть встроена в модуль для наших серверов кэширования, что устраняет необходимость запуска JVM на этих серверах. Во-вторых, производители могут быть настроены на пакетные запросы для оптимизации сетевого трафика, но не могут создавать постоянный локальный журнал, который потребует дополнительного обслуживания. Ввод-вывод Kafka и использование памяти оставлены на усмотрение ОС, а не JVM. [3].

"Kafka был написан LinkedIn и в настоящее время является проектом Apache. В производстве в LinkedIn примерно 10 000 производителей обрабатываются восемью серверами Kafka на центр обработки данных. Эти кластеры объединяют свои потоки в единый аналитический центр обработки данных, который Kafka поддерживает из коробки через простая конфигурация зеркалирования.

"Эти функции очень подходят для наших предполагаемых сценариев использования; даже те, которые мы не собираемся использовать, такие как разделение и маршрутизация по" тематическим "категориям", интересны и могут оказаться полезными в будущем, когда мы расширим наши цели.

"Остальная часть этого документа более подробно рассматривается в этих темах..."