Подтвердить что ты не робот

Каковы инструменты и методы с открытым исходным кодом для создания полной платформы хранилища данных?

Я ищу эти инструменты с открытым исходным кодом, возможно, бесплатно или с бесплатной пробной версией, чтобы установить полный стек хранилища данных.

Я знаю примерно такие, как Pentaho сервер с открытым исходным кодом Mondrian, но не смог получить какой-либо результат Google для настройки полной платформы. Я не уверен, совместимы ли эти компоненты друг с другом? Может кто-нибудь, пожалуйста, перечислить их вместе со своей позицией в цепочке?

Спасибо.

4b9b3361

Ответ 1

Сделки с открытым исходным кодом отлично справляется с определением компонентов OSS, которые могут быть использованы для создания стека хранилища данных: Infrastructure (серверы, ОС, базы данных), Управление интеграцией (ETL, EAI и т.д.), Управление информацией (DW/Mart/ODS, OLAP-серверы и т.д.), Доставка информации (портал, панель мониторинга, аналитика/клиент OLAP и т.д.). Вот резюме:

Проекты с открытым исходным кодом BI/DW

BI и аналитика

Базы данных

Интеграция

Я рекомендую просматривать презентацию. Хороший материал.

Ответ 2

Стек хранилища данных (или набор) обычно состоит из трех уровней. Обычно они называются ETL (погрузка), Database и Reporting (интерфейс). Кроме того, существуют несколько более продвинутые инструменты для повышения производительности и потребностей экспертов. Они состоят из Cubes и Statistical Analysis Tools.

Что касается взаимодействия, инструменты ETL и инструменты отчетности должны поддерживать любую базу данных, которую вы используете. Однако, поскольку имеется только две большие базы данных с открытым исходным кодом, обычно нет проблем с смешиванием различных решений.

Что касается особенностей -

1 - ETL

Загрузка данных может быть достигнута с помощью инструментов с открытым исходным кодом, таких как интеграция данных Pentaho или Talend (расширение eclipse). Я бы предложил googling "open source etl", чтобы адаптировать решение для ваших конкретных потребностей.

2 - DB

Вам понадобится реляционная база данных (RDBMS). Двумя наиболее известными игроками с открытым исходным кодом являются PostgreSQL (используется Stack Overflow) и MySQL. Хотя MySQL имеет более широкую пользовательскую базу, Postgres получает все большую популярность с тех пор, как внедряет несколько важных функций, которые отсутствовали в более ранних версиях.

3 - Отчетность

Пентахо предлагает платформу для отчетности. Так что BIRT (другое расширение затмения). Опять же, Google является вашим другом для конкретных сравнений. Обратите внимание: когда вы выбираете Pentaho для инструментов ETL и Reporting, вы, вероятно, получите лучшую интеграцию. Вы также упоминали Mondrian, который является инструментом для генерации запросов MDX по РСУБД. MDX - стандартный язык для запросов кубов.

В этот момент, предполагая, что вы начинаете с нуля, я бы рекомендовал настроить первые два уровня хранилища данных - ETL и DB. Вы можете позже добавить любое количество средств отчетности выше.

Ответ 3

Это еще один подобный вопрос 20 миллиардов строк/месяц - Hbase/Hive/Greenplum/What?

Самая важная часть:

Я не могу этого достаточно подчеркнуть: получить то, что хорошо играет с готовыми инструментами отчетности.

.

Hive или HBase поставили вас в основу создания пользовательского интерфейса, которого вы действительно не хотите, если только вы не будете счастливы потратить следующие 5 лет на создание настраиваемых форм отчетов на Python.

Ответ 4

Развернувшись на том, что написал Паскаль:

Сервер OLAP: Mondrian

AJAX сводные таблицы: Saiku

Дизайнер схемы OLAP: Инструмент Pentaho Schema Workbench

Конструктор агрегатов OLAP: Дизайнер агрегации Pentaho

ETL: Pentaho Kettle

Дизайнер отчетов: Дизайнер отчетов Pentaho

Качество данных: DataCleaner

Столбцовый хранилище данных: MonetDB

Data Mining: RapidMiner

Ответ 5

Качество данных и профилирование - http://sourceforge.net/projects/dataquality/

у него также есть соединение Hive и верстка данных для создания реальных данных.