Подтвердить что ты не робот

Распределение распределения Hadoop

Может ли кто-нибудь описать различные различия между различными доступными распределениями Hadoop:

используя дистрибутив Apache Hadoop в качестве базовой линии.

Существует ли веская причина использовать одно из этих распределений по стандартным дистрибутивам Apache Hadoop?

4b9b3361

Ответ 1

Отказ от ответственности: я интернировал в Cloudera этим летом (но некоторые из моих лучших друзей на Yahoo!: -))

Распространение Yahoo - это версия Hadoop 20, которую они запускают (бегают?) на каком-то подмножестве своих кластеров. Он включает в себя набор исправлений для стабильности, исправлений ошибок и т.д. Это исходный релиз; он не имеет удобных для администратора функций, таких как rpm или debian пакеты и т.д.

Распределение Cloudera - это пакеты как rpms и deb (источник также доступен). Это означает, что вы можете получать обновления с помощью стандартных методов и т.д. Это также включает исправления стабильности и исправления ошибок. Он постоянно поддерживается (не сказать, что Yahoo не является - я полагаю, можно просто пойти на github и проверить, когда они в последний раз его обновили). Он также упаковывает Pig и Hive.

Распределение Cloudera Hadoop 20 находится в бета-версии, а 18 считается стабильным (подробнее об этом в блоге Cloudera). В 18-ю версию также включены пакеты для Hive and Pig; за 20, вы должны сами их построить (официальных релизов Pig или Hive, которые поддерживают 20, пока нет, хотя существуют патчи). Там может быть значительное перекрытие между версиями Cloudera и Yahoo 20; оба обеспечивают манифесты, поэтому вы можете проверить. Последняя документация для дистрибутивов Cloudera находится в http://archive.cloudera.com

Yahoo не обеспечивает поддержку их распространения; они предоставляют свою исправленную версию как услугу для сообщества, поэтому заинтересованные люди могут создавать то, что Yahoo работает внутри. Учитывая размер кластеров Yahoo, это значительный вклад, особенно если вы не разработчик Hadoop, который постоянно следит за JIRA. Cloudera поддерживает их дистрибуцию на коммерческой основе, а также предоставляет некоторую поддержку сообщества через списки рассылки Hadoop и для особых проблем на странице GetSatisfaction.

Оба довольно сильно отличаются от ванильного дистрибутива Apache, поскольку они исправляют его между релизами (версия cloudera из 20 имеет более 60 патчей!).

Ответ 2

Yahoo прекратила его собственное распространение и сосредоточилась на Apache Hadoop.

http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of-hadoop/

http://www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/

Недавно HortonWorks (www.hortonworks.com) был выпущен из Yahoo. И теперь HortonWorks также будет оказывать поддержку, в отличие от Yahoo.

http://www.hortonworks.com/about-us/our-manifesto/

Cloudera - это те же строки, что и HortonWorks

http://www.cloudera.com/products-services/

Основное отличие - HortonWorks хочет сделать дистрибутивы Apache стабильными, простыми в установке и другими. Хотя у Cloudera есть собственный дистрибутив CDH * на основе Apache Hadoop.

Ответ 3

Существуют разные причины выбора распределения Hadoop, такого как Cloudera, Hortonworks или MapR вместо Apache Hadoop. Два больших преимущества - поддержка инструментов и коммерческая поддержка. У вас также есть много проблем "сбор и интеграция" всех фреймворков Hadoop, таких как Pig, Hive и т.д. В правильных и совместимых версиях.

Взгляните на мою статью в InfoQ. В нем объясняются различия между Apache Hadoop, распределением Hadoop и наборами больших данных, и когда использовать один из них:

http://www.infoq.com/articles/BigDataPlatform

С уважением,

Кай Вахнер (@KaiWaehner, www.kai-waehner.de/blog)

Ответ 4

SquareCog работает практически во всех точках, за исключением: Yahoo! распределение - это то, что выполняется на всех производственных кластерах в Yahoo!, а не подмножество их. Это более 25 000 машин. Yahoo! распространение имело обширное, сквозное тестирование, необходимое для обеспечения надежной и последовательной работы. Другое распределение более либерально в отношении применения патчей и, следовательно, может иметь больше возможностей, но не было протестировано так широко.