Подтвердить что ты не робот

Что такое Google Dremel? Как он отличается от Mapreduce?

Google Dremel описан здесь. Какая разница между Dremel и Mapreduce?

4b9b3361

Ответ 1

Отметьте статью. Dremel - это то, каким должно быть будущее улья (и будет).

Основная проблема MapReduce и решений поверх нее, таких как Pig, Hive и т.д., заключается в том, что у них есть внутренняя латентность между запуском задания и получением ответа. Dremel использует совершенно новый подход (вышел в 2010 году в этой статье google), который...

... использует новый механизм выполнения запросов, основанный на деревьях агрегаторов...

... для запуска почти реального времени, интерактивного И adhoc запросов, которые MapReduce не может. И Pig and Hive не в режиме реального времени

Вы должны следить за проектами, исходящими из этого. Для меня это тоже очень ново... поэтому любые другие комментарии экспертов приветствуются!

Изменить: Dremel - это то, что должно быть будущее HIVE (а не MapReduce, как я упоминал ранее). В настоящее время улей предоставляет интерфейс, подобный SQL, для запуска заданий MapReduce. Улей имеет очень высокую задержку и поэтому не применим для анализа данных ad hoc. Dremel обеспечивает очень быстрый SQL-подобный интерфейс для данных, используя другой метод, чем MapReduce.

Ответ 2

Dremel и MapReduce не сопоставимы напрямую, а скорее являются взаимодополняющими технологиями.

MapReduce специально не предназначен для анализа данных - скорее это программная среда, которая позволяет совокупности узлов решать распределенные вычислительные проблемы для больших наборов данных.

Dremel - это инструмент анализа данных, предназначенный для быстрого выполнения запросов к массивным структурированным наборам данных (таким как файлы журналов или событий). Он поддерживает SQL-подобный синтаксис, но кроме добавления таблиц, он доступен только для чтения. Он не поддерживает обновление или создание функций, а также не поддерживает индексы таблиц. Данные организованы в "столбчатом" формате, что способствует очень быстрой скорости запросов. Продукт Google BigQuery - это реализация Dremel, доступная через RESTful API.

Hadoop (реализация MapReduce с открытым исходным кодом) в сочетании с программным обеспечением хранилища данных "Hive" также позволяет анализировать данные для массивных наборов данных с использованием синтаксиса в стиле SQL. Hive по сути превращает запросы в функции MapReduce. В отличие от использования формата ColumIO, Hive пытается быстро выполнять запросы, используя такие методы, как индексация таблиц.

Ответ 3

MapReduce - абстрактный алгоритм, позволяющий разделить проблему, распределить ее и объединить результаты. Dremel, похоже, является специальным инструментом для запросов и анализа наборов данных.