Подтвердить что ты не робот

Преимущества баз данных, таких как Greenplum или Vertica, по сравнению с MongoDB или Cassandra

В настоящее время я работаю в нескольких проектах с MongoDB и Apache Cassandra соответственно. Я также много использую Solr, и я обрабатываю "много" данных с ними (примерно 1-2 ТБ). Я слышал о Greenplum и Vertica в первый раз на прошлой неделе, и я не совсем уверен, где положить их в мой мозг. Они мне кажутся такими, как Dataware House (DWH), и я действительно не работал с DWH. И они, кажется, стоят много денег (например, 60 000 долларов за 1 ТБ-хранилище в Greenplum). В настоящее время я не обрабатываю данные Petabyte и не буду этого делать, думаю, но такие продукты, как cassandra, также могут справиться с этим

Cassandra является признанным лидером NoSQL, когда дело доходит до удобно масштабировать до терабайт или петабайт данных.

через http://www.datastax.com/why-cassandra

Итак, мой вопрос: почему люди должны использовать Greenplum и Co? Есть ли огромное преимущество по сравнению с этими другими продуктами?

Спасибо.

4b9b3361

Ответ 1

Cassandra, Greenplum и Vertica обрабатывают огромное количество данных, но по-разному.

Некоторые из них создавали условия, при которых каждая база данных имеет свои сильные стороны:

Используйте cassandra для:

tweets.insert(key:user, data:blob);
tweets.get(key:user)

Использовать greenplum для:

begin;
update account set balance = balance - 10 where account_id = 1;
update account set balance = balance + 10 where account_id = 2;
commit;

Используйте Vertica для:

select sum(balance)
over (partition by region order by account rows unbounded preceding)
from transactions;

Ответ 2

Я работаю в телекоммуникационной отрасли. Мы имеем дело с большими наборами данных и сложными EDW (корпоративными хранилищами данных). Мы начали с Teradata, и это было хорошо в течение нескольких лет. Затем данные увеличились экспоненциально, и, как вы знаете, расширение в Teradata дорого. Итак, мы оценили EMC, а именно зеленую сливу, оракул exadata, hp Vertica и IBM netteza.

В скорости генерируется 20 отчетов пошел следующим образом: 1. Vertica, 2. Netteza, 3. зеленая слива, 4. оракул

В степени сжатия: Vertica имела естественное преимущество. К тому же IBM тоже хороша. Самое худшее в соответствии с бенчмарками - emc и oracle. Как всегда ожидалось, так как оба хотят продать тонну хранилища и оборудования.

Масштабируемость: все хорошо масштабируются.

Время загрузки: emc является лучшим здесь, другие (teradata, Vertica, oracle, IBM) тоже хороши.

Параллельный запрос пользователя: Vertica, emc, green plum, а затем только IBM. Oracle exadata медленнее в любом типе запросов, сравнительно, но намного лучше, чем его старая школа 10g.

Цена: Teradata > Oracle > IBM > HP > EMC

Примечание. Необходимо сопоставлять яблоко с яблоком, то же самое без ядра, бара, объема данных и отчетов.

Мы выбрали Vertica для аппаратной независимой модели ценообразования, снижения цен и хорошей производительности. Теперь все 40 пользователей счастливы генерировать отчеты, не дожидаясь, и все они подходят для недорогих серверов hp dl380. это отлично подходит для использования в olap/edw.

Весь этот анализ предназначен только для случая edw/analytics/olap. Я все еще поклонник оракула для всех oltp, богатых plsql, подключения и т.д. На любом оборудовании или системе. Exadata дает достойную смешанную рабочую нагрузку, но неразумную в соотношении цена/производительность и по-прежнему необходимо перенести код 10g в передовую практику exadata (вроде MMP, например, массовая обработка и т.д., И ее трудоемкость, чем то, что они требуют).

Ответ 3

Мы работаем в Hadoop в течение 4 лет, а Vertica для 2. У нас были огромные проблемы с загрузкой и индексированием с нашими таблицами в MySQL. Мы работали на испарениях с нашим домашним оштукатующим раствором. Мы могли бы вкладывать значительные средства в разработку более сложного решения осколки, которое было бы довольно болезненным, imo. Мы могли бы подумать о том, какие данные нам абсолютно необходимы для хранения в базе данных SQL.

Но в конце дня переключение с MySQL на Vertica было тем, что мы выбрали. Шаблоны производительности Vertica сильно отличаются от MySQL, и у него есть свои головные боли. Но он может загружать много данных очень быстро, и он хорош в тяжелых запросах, которые заставили бы голову MySQL вращаться.

Как я вижу, Vertica - это решение, когда вы уже инвестировали в SQL и нуждаетесь в более тяжелой базе данных SQL. Я не эксперт, поэтому я не мог сказать вам, какой был бы переход к Oracle или DB2 по сравнению с Vertica, ни с точки зрения интеграции, ни с точки зрения денежных затрат.

Vertica предлагает множество функций, с которыми мы едва смотрели. Это может быть очень привлекательным для других людей с различными вариантами использования.

Ответ 4

Я администратор Vertica и до этого был разработчиком Vertica. Michael Stonebreaker (парень позади Ingres, Vertica и других баз данных) имеет некоторые критические замечания NoSQL, заслуживающие внимания.

В принципе, вот преимущества Vertica, как я их вижу:

  • довольно быстро на больших объемах данных
  • производительность аналогична (поэтому я могу собрать) к другим решениям для хранения данных, но преимуществом является кластерное и товарное оборудование. Таким образом, вы можете масштабировать, добавляя больше товарного оборудования. Это выглядит дешево с точки зрения общей стоимости на ТБ. (Исходя из памяти не точная цитата.)
  • Опять же, это для хранилища данных.
  • Вы можете использовать традиционные SQL и таблицы. Это под капотом, что разные.

Я не могу говорить с другими продуктами, но я уверен, что многие из них тоже прекрасны.

Изменить. Здесь разговор от Stonebreaker: http://www.slideshare.net/Dataversity/newsql-vs-nosql-for-new-oltp-michael-stonebraker-voltdb

Ответ 5

Pivotal, ранее Greenplum, является хорошо финансируемым выпуском EMC, VMware и GE. Основным рынком являются предприятия (и агентства национальной кибербезопасности) с базами данных с множеством Петабайт, требующими сложной аналитики и высокоскоростного ETL. Greenplums origin - это PostgreSQL DB, измененный для Map Reduced MPP, с более поздними дополнениями для поддержки столбцов и HDFS. Он женится на лучшем из SQL + NoSQL, делающем NewSQL.

Особенности:

  • В 2015H1 большая часть их кода, включая Greenplum DB и HAWQ, пойдет Открытый исходный код. Некоторые усовершенствованные функции управления и производительности на верхняя часть стека останется собственностью.
  • MPP (массовая параллельная обработка) база данных RDBMS без совместного использования, предназначенная для сред с несколькими терабайтами в несколько петабайт.
  • Полный SQL Compliance - поддержка всех версий SQL: '92, '99, 2003 OLAP и т.д. 100% совместимость с PostgreSQL 8.2. • Только SQL over HADOOP способен обрабатывать все 99 запросов, используемых эталонным стандартом TPC-DS без перезаписи. Конкурс не может сделать многие из них и значительно медленнее. SIGMON.
  • Соответствие ACID.
  • Поддерживает данные, хранящиеся в HDFS, Hive, HBase, Avro, ProtoBuf, файлы с разделителями текста и последовательности.
  • Интеграция Solr/Lucene для многоязычного полнотекстового поиска, встроенного в SQL.
  • Включает программное обеспечение с открытым исходным кодом: Spring, Cloud Foundry, Redis.io, RabbitMQ, Grails, Groovy, Open Chorus, Pig, ZooKeeper, Mahout, MADlib, MapR. Некоторые из них используются в EBSCO.
  • Родная связь с HBase, которая является популярной технологией для хранения столбцов в Hadoop.
  • Участие VMware в инвестициях в размере $150 млн. в MongoDB, скорее всего, приведет к интеграции XML файлов размером в петабайт.
  • Спецификация таблиц распределения по таблицам по таблицам позволяет вам проектировать схемы таблиц, чтобы использовать node -локальные объединения и групповые байты, но будет выполнять даже без этого.
  • Сохранение данных на основе строк и/или столбцов. Это единственная база данных, где таблица может быть полиморфной как с столбцами, так и с разбивкой по строкам, как определено DBA.
  • Таблица столбцов-хранилищ может иметь другой алгоритм сжатия для каждого столбца, потому что разные типы данных имеют разные характеристики сжатия для оптимизации их хранения.
  • Улучшенный оптимизатор запросов CBO-оптимизаций - запросы могут выполняться на сотнях тысяч узлов.
  • Это единственная база данных с динамической распределенной моделью выполнения конвейера для обработки запросов. В то время как старые базы данных полагаются на материализованное исполнение, Greenplum не должен записывать данные на диск с каждым промежуточным шагом запроса. Он передает данные на следующий этап плана запроса в память и никогда не должен материализовать данные на диск, поэтому он намного быстрее, чем продемонстрировал кто-то на Hadoop.
  • Комплексные запросы на больших наборах данных решаются в секундах или даже в подсетеках.
  • Управление данными - предоставляет статистику таблиц, безопасность таблицы.
  • Глубокая аналитика - включая алгоритмы интеллектуального анализа данных или машинного обучения с использованием MADlib. Глубокая семантическая текстовая аналитика с использованием GPText.
  • Графический анализ - миллиардная граница распределенной базы данных графа и алгоритмов с использованием GraphLab.
  • Интеграция индексов SQL, Solr, GPText, MADlib и GraphLab в одном запросе для массивного синтаксического анализа и анализа сродства к диаграмме/матрице для глубокой поисковой аналитики.
  • Полностью совместим с ODBC/JDBC.
  • Распределенная скорость ETL в 16 ТБ/ч! Доступна интеграция с Talend.
  • Облачная поддержка: Pivotal планирует упаковать свое программное обеспечение Cloud Foundry, чтобы оно могло использоваться для размещения Pivotal поверх других облаков, в том числе EC2 Amazon Web Services. Управление ключевыми данными будет доступно для использования в различных облачных настройках и не будет зависеть от собственной системы VMware. Будет нацелен OpenStack, vSphere, vCloud Director или частные бренды. IBM объявила, что стандартизирована в Cloud Foundry для своего PaaS. Страница Confluence.
  • Два аппаратных "устройства": Isilon NAS и Greenplum DCA.

Ответ 6

Существует много путаницы в том, когда использовать базу данных строк, такую ​​как MySQL или Oracle, или столбчатую базу данных, такую ​​как Infobright или Vertica или вариант NoSQL или Hadoop. Мы написали белый документ, чтобы помочь разобраться, какие технологии лучше всего подходят для использования в случаях использования - вы можете скачать "Новый ландшафт базы данных" (прокрутите половину пути вниз) или просмотрите вебинар по запросу в той же теме.

Надежда либо полезна для вас