Подтвердить что ты не робот

Какова самая зрелая библиотека для построения Pipeline Data Analytics в Java/Scala для Hadoop?

В последнее время я нашел много вариантов и интересен в своих сравнениях в первую очередь по зрелости и стабильности.

4b9b3361

Ответ 1

У Scalding также есть преимущество над крупными проектами с открытым исходным кодом, построенными на нем, такими как Matrix API и Algebird.

Вот несколько примеров: http://sujitpal.blogspot.com/2012/08/scalding-for-impatient.html

Cascalog был выпущен почти за два года до Scalding и, возможно, имеет более сложные функции для создания надежных рабочих процессов: https://github.com/nathanmarz/cascalog/wiki

Ответ 2

Поскольку я разработчик Scoobi, не ожидайте непредвзятого ответа.

Прежде всего, FlumeJava - это внутренний проект google, который обеспечивает (удивительно продуктивную) абстракцию ontop MapReduce (но не hadoop). Они выпустили статью об этом, в основе которой лежат проекты, такие как Scoobi и Crunch.

Если ваши единственные критерии - зрелость - я думаю, что Cascading - ваш лучший выбор.

Однако, если вы ищете абстракцию стиля (imho superior) FlumeJava, вам нужно выбрать между (S) хрустом и Scoobi.

Самая большая разница, поверхностная, как это может быть, это хруст, написанный на Java, с Scala привязками (Scrunch). И Scoobi написан в Scala с привязками Java (scoobij). Они оба действительно твердые выборы, и вы не ошибетесь, когда захотите. Я уверен, что с Crunch очень похожая история, но Scoobi используется в реальных проектах и ​​находится под постоянным развитием. Мы очень активно занимаемся исправлением ошибок и внедрением функций.

Во всяком случае, они оба отличные проекты с замечательными людьми позади них и оба были выпущены в течение нескольких дней друг от друга. Они обеспечивают ту же абстракцию (с аналогичным api), поэтому переключение между ними не будет проблемой в малейшей степени. Моя рекомендация - дать им и попробовать, и посмотреть, что сработает для вас. В любом проекте нет блокировки, поэтому вам не нужно фиксировать:)

И если у вас есть обратная связь для любого проекта, обязательно предоставьте:)

Ответ 3

Я сам большой поклонник Scoobi, и я использовал его в производстве. Мне нравится, как он позволяет писать безопасные по типу программы Hadoop очень идиоматическим способом Scala. Если это не обязательно ваша вещь, и вам нравится каскадная модель, но вам напугать огромное количество кода шаблона, который вам нужно написать, Twitter недавно открыл свой собственный слой абстракции Scala поверх Cascading под названием обжигающего.

Я предполагаю, что все это дело вкуса в этот момент, так как особенность большинства фреймворков очень близка друг к другу.