Подтвердить что ты не робот

Является ли hasoop единственной структурой в большом пространстве данных?

В настоящее время я изучаю hadoop, но часто задаюсь вопросом, является ли Hadoop единственной программной средой, поддерживающей распределенные приложения. Я хочу понять, существует ли какая-либо другая структура, кроме Hadoop, в пространстве больших данных.

4b9b3361

Ответ 1

Альтернативы Hadoop

Apache Spark - кластерная вычислительная система с открытым исходным кодом, которая направлена ​​на то, чтобы сделать аналитику данных быстрой - быстрой и быстрой для записи.

GraphLab - переработанный полностью распределенный API, интеграция HDFS и широкий набор новых инструментальных средств машинного обучения.

HPCC Systems - (высокопроизводительный вычислительный кластер) - это массивная вычислительная платформа параллельной обработки, которая решает проблемы с большими данными.

Dryad - исследует модели программирования для написания параллельных и распределенных программ для масштабирования от небольшого кластера до большого объема данных, центр.

Apache Flink - платформа распространения распределенных данных с открытым исходным кодом. Распределенные программы представлены в виде DAG операторов (таких как join, map, group,..)

Storm - бесплатная и распределенная система вычислений с открытым исходным кодом. Storm упрощает надежно обрабатывать неограниченные потоки данных, делая для обработки в реальном времени то, что Hadoop сделал для пакетной обработки. Шторм прост, может использоваться с любым языком программирования и очень полезен!

R3 - это программа для преобразования карты, написанная на python, с использованием backis-сервера redis.

Disco - это легкая среда с открытым исходным кодом для распределенных вычислений на основе парадигмы MapReduce.

Phoenix - это реализация модели Google MapReduce с общей памятью для задач обработки данных.

Plasma - PlasmaFS - это распределенная файловая система для больших файлов, реализованная в пользовательском пространстве. Плазменная карта/Сокращение запускает известную схему алгоритмов для отображения и перестановки больших файлов. Плазменное KV - это база данных ключей/значений поверх PlasmaFS

Peregrine - это каркас с уменьшением масштаба, предназначенный для запуска итерационных заданий по разделам данных.

httpmr. Масштабируемая структура обработки данных для людей с веб-кластерами.

сектор/сфера - сектор - это высокопроизводительная, масштабируемая и безопасная распределенная файловая система. Sphere - это высокопроизводительный параллельный процессор обработки данных, который может обрабатывать файлы данных сектора на узлах хранения с помощью очень простых интерфейсов программирования.

Filemap - это легкая система для применения инструментов обработки файлов в стиле Unix для больших объемов данных, хранящихся в файлах.

misco - это распределенная вычислительная среда, предназначенная для мобильных устройств.

MR-MPI - это библиотека, которая представляет собой реализацию MapReduce с открытым исходным кодом, написанную для параллельных компьютеров с распределенной памятью на верхняя часть сообщения стандартного сообщения MPI

GridGain - вычисления в памяти

полный список - Проекты, отличные от Hadoop!