Какая разница между Flume и Sqoop?

Оба Flume и Sqoop предназначены для перемещения данных, то в чем разница между ними? В каком состоянии следует использовать Flume или Sqoop?

Ответ 1

Из http://flume.apache.org/

Flume - это распределенный, надежный и доступный сервис для эффективно собирать, агрегировать и перемещать большие объемы журнала данных.

Flume помогает собирать данные из различных источников, таких как журналы, jms, Directory и т.д.
Несколько агентов потока могут быть настроены для сбора большого объема данных.
Он масштабируется горизонтально.

Из http://sqoop.apache.org/

Apache Sqoop (TM) - это инструмент, предназначенный для эффективной передачи массовой информации данных между Apache Hadoop и структурированными хранилищами данных, такими как реляционных баз данных.

Sqoop помогает перемещать данные между хаопом и другими базами данных и может передавать данные параллельно для производительности.

Ответ 2

Как Sqoop, так и Flume, вытащите данные из источника и нажмите на раковину. Основное различие заключается в том, что Flume управляется событиями, а Sqoop - нет.

Ответ 3

Flume:

  Flume is a framework for populating Hadoop with data. Agents are populated 
  throughout ones IT infrastructure – inside web servers, application servers
  and mobile devices, for example – to collect data and integrate it into Hadoop.

Sqoop:

  Sqoop is a connectivity tool for moving data from non-Hadoop data stores – such
  as relational databases and data warehouses – into Hadoop. It allows users to 
  specify the target location inside of Hadoop and instruct Sqoop to move data 
  from Oracle,Teradata or other relational databases to the target.

Вы можете увидеть полное Сообщение

Ответ 4

Flume: Очень распространенным случаем является сбор данных журнала из одной системы - банка веб-серверов (объединение его в HDFS для последующего анализа).

Sqoop: С другой стороны, предназначен для выполнения массового импорта данных в HDFS из структурированных хранилищ данных. простым вариантом использования будет организация, которая запускает ночной импорт sqoop для загрузки данных дня из производственной базы данных в хранилище данных для хранилища данных для анализа.

- Из окончательного руководства.

Ответ 5

Sqoop и Flume оба предназначены для удовлетворения потребностей в потреблении данных, но они служат различным целям. Apache Flume хорошо работает для потоковой передачи источников данных, которые непрерывно генерируются в среде hadoop, такой как файлы журналов с нескольких серверов, тогда как Apache Sqoop хорошо работает с любой RDBMS с возможностью подключения JDBC.

Sqoop фактически предназначен для массовых передач данных между хаопом и любыми другими структурированными хранилищами данных. Flume собирает данные журнала из многих источников, агрегирует их и записывает в HDFS.

Я наткнулся на эту интересную инфографику, которая объясняет различия между двумя проектами apache Sqoop и Flume -

Разница между Sqoop и Flume

Ответ 6

Sqoop

Sqoop может выполнять импорт/экспорт из RDBMS в HDFS/HIVE/HBASE
sqoop только импорт/экспорт структурированных данных неструктурированных или полу структурированным.

Флюм

импортировать данные потока из нескольких источников, в основном полуструктурированных и неструктурированный по своей природе. Теперь Кафка - лучшая альтернатива дымоходу.

Ответ 7

Apache Sqoop и Apache Flume работают с различными источниками данных. Flume хорошо работает в потоковых источниках данных, которые непрерывно генерируются в среде хаопов, таких как файлы журналов с нескольких серверов.

тогда как Apache Sqoop разработан, чтобы хорошо работать с любой системой реляционных баз данных, которая имеет JDBC-соединение.

Sqoop также может импортировать данные из баз данных NoSQL, таких как MongoDB или Cassandra, а также позволяет осуществлять прямую передачу данных или Hive или HDFS. Для передачи данных в Hive с помощью инструмента Apache Sqoop должна быть создана таблица, для которой схема берется из самой базы данных.
В загрузке Apache Flume загружается событие, тогда как в Apache Sqoop загрузка данных не зависит от событий.

4.Flume - лучший выбор при перемещении данных объемного потока из разных источников, таких как JMS или каталог спулинга, тогда как Sqoop идеально подходит, если данные находятся в таких базах данных, как Teradata, Oracle, MySQL Server, Postgres или любые другие совместимые с JDBC тогда лучше использовать Apache Sqoop.

5. В Apache Flume данные передаются в HDFS через несколько каналов, тогда как в Apache Sqoop HDFS является местом назначения для импорта данных.

6. Апач-флеш имеет архитектуру на основе агента, то есть код, написанный во флеме, известен как агент, который отвечает за выборку данных, тогда как в Apache Sqoop архитектура основана на коннекторах. Соединители в Sqoop знают, как подключаться к различным источникам данных и получать данные соответственно.

Наконец, Sqoop и Flume не могут использоваться для достижения тех же задач, которые разработаны специально для различных целей. Агенты Apache Flume предназначены для сбора потоковых данных, таких как твиты из Twitter или файла журнала с веб-сервера, тогда как Sqoop-коннекторы предназначены для работы только со структурированными источниками данных и извлечения данных из них.

Apache Sqoop в основном используется для параллельной передачи данных для импорта данных, поскольку он быстро копирует данные, когда Apache Flume используется для сбора и агрегирования данных из-за его распределенного, надежного характера и высокодоступных путей резервного копирования.