Может ли запустить apache без хаоса?

Существуют ли зависимости между Spark и Hadoop?

Если нет, есть ли какие-либо функции, которые я пропущу, когда я запустил Искра без Hadoop?

Ответ 1

Spark может работать без Hadoop, но некоторые его функции зависят от кода Hadoop (например, обработка файлов Parquet). Мы запускаем Spark на Mesos и S3, который было немного сложно настроить, но когда-то он работает очень хорошо (вы можете прочитать краткое изложение того, что нужно, чтобы правильно установить его здесь).

(Изменить) Примечание: начиная с версии 2.3.0 Spark также добавила встроенную поддержку Kubernetes

Ответ 2

Spark - это распределенный вычислительный движок в памяти.

Hadoop - это платформа для распределенного хранения (HDFS) и распределенная обработка ( YARN).

Spark может работать с компонентами Hadoop или без них (HDFS/YARN)

Распределенное хранилище:

Так как Spark не имеет собственной распределенной системы хранения, она должна зависеть от одной из этих систем хранения для распределенных вычислений.

S3 - Несрочные пакетные задания. S3 подходит для очень конкретных случаев использования, когда местоположение данных не является критическим.

Cassandra - идеально подходит для потокового анализа данных и избыточного количества для пакетных заданий.

HDFS - отлично подходит для пакетных заданий без ущерба для локальности данных.

Распределенная обработка:

Вы можете запустить Spark в трех разных режимах: Автономный, YARN и Mesos

Взгляните на приведенный ниже вопрос SE для подробного объяснения как распределенной памяти, так и распределенной обработки.

Какой тип кластера следует выбрать для Spark?

Ответ 3

По умолчанию Spark не имеет механизма хранения.

Для хранения данных нужна быстрая и масштабируемая файловая система. Вы можете использовать S3 или HDFS или любую другую файловую систему. Hadoop является экономичным вариантом из-за низкой стоимости.

Кроме того, если вы используете Tachyon, это повысит производительность с Hadoop. Настоятельно рекомендуется Hadoop для обработки Apache Spark.

Ответ 4

Да, искра может работать без хаоса. Все основные функции искры будут продолжать работать, но вы будете пропускать такие вещи, как легко распределять все ваши файлы (код, а также данные) ко всем узлам кластера через hdfs и т.д.

Ответ 5

Да, вы можете установить Spark без Hadoop. Это было бы немного сложно Вы можете ссылаться на ссылку arnon, чтобы использовать паркет для настройки на S3 в качестве хранилища данных. http://arnon.me/2015/08/spark-parquet-s3/

Spark выполняет только обработку и использует динамическую память для выполнения задачи, но для хранения данных вам нужна некоторая система хранения данных. Здесь hasoop входит в состав Spark, он обеспечивает хранилище для Spark. Еще одна причина использования Hadoop с Spark - это открытый исходный код, и оба могут легко интегрироваться друг с другом по сравнению с другими системами хранения данных. Для другого хранилища, такого как S3, вам должно быть сложно настроить его, как упоминание в приведенной выше ссылке.

Но у Hadoop также есть блок обработки, называемый Mapreduce.

Хотите узнать разницу в обоих?

Проверьте эту статью: https://www.dezyre.com/article/hadoop-mapreduce-vs-apache-spark-who-wins-the-battle/83

Я думаю, эта статья поможет вам понять

что использовать,
когда использовать и
как использовать!!!

Ответ 6

Согласно документации Spark, Spark может работать без Hadoop.

Вы можете запустить его как автономный режим без какого-либо менеджера ресурсов.

Но если вы хотите запускать в настройке multi- node, вам нужен диспетчер ресурсов, такой как YARN или Mesos, и распределенная файловая система, такая как HDFS, S3 и т.д.

Ответ 7

Да, конечно. Spark - независимая вычислительная структура. Hadoop - это система хранения данных (HDFS) с каркасной платформой MapReduce. Spark может получать данные из HDFS, а также любой другой источник данных, такой как традиционная база данных (JDBC), kafka или даже локальный диск.

Ответ 8

Да, Spark может работать с установкой Hadoop или без нее, более подробную информацию вы можете найти на странице https://spark.apache.org/docs/latest/.

Ответ 9

Нет. Для начала работы требуется полномасштабная установка Hadoop - https://issues.apache.org/jira/browse/SPARK-10944