Apache Storm по сравнению с Hadoop

Как Storm сравнивается с Hadoop? Hadoop, по-видимому, является стандартом defacto для широкомасштабной пакетной обработки с открытым исходным кодом, имеет ли Storm какие-либо преимущества перед хаопом? или они совершенно разные?

Ответ 1

Почему бы вам не рассказать свое мнение.

Twitter Storm был рекламирован как Hadoop в реальном времени. Это скорее маркетинговый подход для легкого потребления.

Они внешне похожи, поскольку оба являются распределенными прикладными решениями. Помимо типичных распределенных архитектурных элементов, таких как master/slave, координация на основе zookeeper, мне сравнивается спад с утеса.

Twitter больше похож на трубопровод для обработки данных по мере его поступления. Труба - это то, что соединяет различные вычислительные узлы, которые получают данные, вычисляют и предоставляют выходные данные. (Там lingo - носики и болты). Проведите эту аналогию с сложной проводкой трубопровода, которая может быть переделана по мере необходимости, и вы получите Twitter Storm.

В ореховой оболочке он обрабатывает данные по мере надобности. Задержка отсутствует.

Hadoop как бы отличается в этом отношении в первую очередь из-за HDFS. Это решение, предназначенное для распределенного хранения и толерантности к отключению многих масштабов (диски, машины, стойки и т.д.).

M/R создан для использования локализации данных на HDFS для распределения вычислительных заданий. Вместе они не предоставляют возможности для обработки данных в реальном времени. Но это не всегда является требованием, когда вы просматриваете большие данные. (игла в аналогии сена)

Короче говоря, Twitter Storm - это распределенное решение для обработки данных в реальном времени. Я не думаю, что мы должны их сравнить. Twitter построил его, потому что ему нужно было средство для обработки небольших твитов, но их было достаточно, и в реальном времени.

Смотрите: HStreaming, если вы вынуждены сравнить его с чем-то

Ответ 2

В основном, оба они используются для анализа больших данных, но Storm используется для обработки в режиме реального времени, а Hadoop используется для пакетной обработки.

Это очень хорошее введение в Storm, которое я нашел: Нажмите здесь

Ответ 3

Вместо того, чтобы сравнивать, они должны дополнять друг друга, имея теперь пакетную обработку в реальном времени (псевдореальное время). Существует соответствующая видеопрезентация - Ted Dunning on Twitter Storm

Ответ 4

Я использую Storm некоторое время, и теперь я ушел с этой действительно хорошей технологии для потрясающей: Spark (http://spark.apache.org), который предоставляет разработчику единый API для пакетной или потоковой обработки (микро-пакет), а также машинного обучения и обработки графа.

стоит попробовать.

Ответ 5

Шторм предназначен для быстрых данных (в реальном времени), а Hadoop - для больших данных (ранее существовавших тонн данных). Storm не может обрабатывать большие данные, но может генерировать большие данные в качестве выходных данных.

Ответ 6

Apache Storm - это бесплатная и распределенная система вычисления в реальном времени с открытым исходным кодом. Storm упрощает надежно обрабатывать неограниченные потоки данных, делая для обработки в реальном времени то, что Hadoop сделал для пакетной обработки.

Поскольку в экосистеме Hadoop существует множество подсистем, мы должны выбрать правильную подсистему в зависимости от требований бизнеса и осуществимости конкретной системы.

Hadoop MapReduce эффективен для пакетной обработки одного задания за раз. Именно по этой причине Hadoop широко используется как инструмент хранилища данных, а не инструмент анализа данных.

Поскольку вопрос связан только с Storm "vs" Hadoop ", посмотрите Случаи использования штормов - Финансовые услуги, телекоммуникации, розничная торговля, производство, транспорт.

Hadoop MapReduce лучше всего подходит для пакетной обработки.
Storm - это полный механизм обработки потоков и может использоваться для анализа данных в реальном времени с задержкой в подсеансах.

Посмотрите на статью dezyre для сравнения между Hadoop, Storm и Spark. Это объясняет сходства и различия.

Это можно суммировать с изображением внизу (из статьи dezyre)