Является ли hasoop единственной структурой в большом пространстве данных?

В настоящее время я изучаю hadoop, но часто задаюсь вопросом, является ли Hadoop единственной программной средой, поддерживающей распределенные приложения. Я хочу понять, существует ли какая-либо другая структура, кроме Hadoop, в пространстве больших данных.

Ответ 1

Альтернативы Hadoop

• Apache Spark - кластерная вычислительная система с открытым исходным кодом, которая направлена на то, чтобы сделать аналитику данных быстрой - быстрой и быстрой для записи.

• GraphLab - переработанный полностью распределенный API, интеграция HDFS и широкий набор новых инструментальных средств машинного обучения.

• HPCC Systems - (высокопроизводительный вычислительный кластер) - это массивная вычислительная платформа параллельной обработки, которая решает проблемы с большими данными.

• Dryad - исследует модели программирования для написания параллельных и распределенных программ для масштабирования от небольшого кластера до большого объема данных, центр.

• Apache Flink - платформа распространения распределенных данных с открытым исходным кодом. Распределенные программы представлены в виде DAG операторов (таких как join, map, group,..)

• Storm - бесплатная и распределенная система вычислений с открытым исходным кодом. Storm упрощает надежно обрабатывать неограниченные потоки данных, делая для обработки в реальном времени то, что Hadoop сделал для пакетной обработки. Шторм прост, может использоваться с любым языком программирования и очень полезен!

• R3 - это программа для преобразования карты, написанная на python, с использованием backis-сервера redis.

• Disco - это легкая среда с открытым исходным кодом для распределенных вычислений на основе парадигмы MapReduce.

• Phoenix - это реализация модели Google MapReduce с общей памятью для задач обработки данных.

• Plasma - PlasmaFS - это распределенная файловая система для больших файлов, реализованная в пользовательском пространстве. Плазменная карта/Сокращение запускает известную схему алгоритмов для отображения и перестановки больших файлов. Плазменное KV - это база данных ключей/значений поверх PlasmaFS

• Peregrine - это каркас с уменьшением масштаба, предназначенный для запуска итерационных заданий по разделам данных.

• httpmr. Масштабируемая структура обработки данных для людей с веб-кластерами.

• сектор/сфера - сектор - это высокопроизводительная, масштабируемая и безопасная распределенная файловая система. Sphere - это высокопроизводительный параллельный процессор обработки данных, который может обрабатывать файлы данных сектора на узлах хранения с помощью очень простых интерфейсов программирования.

• Filemap - это легкая система для применения инструментов обработки файлов в стиле Unix для больших объемов данных, хранящихся в файлах.

• misco - это распределенная вычислительная среда, предназначенная для мобильных устройств.

• MR-MPI - это библиотека, которая представляет собой реализацию MapReduce с открытым исходным кодом, написанную для параллельных компьютеров с распределенной памятью на верхняя часть сообщения стандартного сообщения MPI

• GridGain - вычисления в памяти

полный список - Проекты, отличные от Hadoop!