Существуют ли зависимости между Spark и Hadoop?
Если нет, есть ли какие-либо функции, которые я пропущу, когда я запустил Искра без Hadoop?
Существуют ли зависимости между Spark и Hadoop?
Если нет, есть ли какие-либо функции, которые я пропущу, когда я запустил Искра без Hadoop?
Spark может работать без Hadoop, но некоторые его функции зависят от кода Hadoop (например, обработка файлов Parquet). Мы запускаем Spark на Mesos и S3, который было немного сложно настроить, но когда-то он работает очень хорошо (вы можете прочитать краткое изложение того, что нужно, чтобы правильно установить его здесь).
(Изменить) Примечание: начиная с версии 2.3.0 Spark также добавила встроенную поддержку Kubernetes
Spark - это распределенный вычислительный движок в памяти.
Hadoop - это платформа для распределенного хранения (HDFS) и распределенная обработка ( YARN).
Spark может работать с компонентами Hadoop или без них (HDFS/YARN)
Так как Spark не имеет собственной распределенной системы хранения, она должна зависеть от одной из этих систем хранения для распределенных вычислений.
S3 - Несрочные пакетные задания. S3 подходит для очень конкретных случаев использования, когда местоположение данных не является критическим.
Cassandra - идеально подходит для потокового анализа данных и избыточного количества для пакетных заданий.
HDFS - отлично подходит для пакетных заданий без ущерба для локальности данных.
Вы можете запустить Spark в трех разных режимах: Автономный, YARN и Mesos
Взгляните на приведенный ниже вопрос SE для подробного объяснения как распределенной памяти, так и распределенной обработки.
По умолчанию Spark не имеет механизма хранения.
Для хранения данных нужна быстрая и масштабируемая файловая система. Вы можете использовать S3 или HDFS или любую другую файловую систему. Hadoop является экономичным вариантом из-за низкой стоимости.
Кроме того, если вы используете Tachyon, это повысит производительность с Hadoop. Настоятельно рекомендуется Hadoop для обработки Apache Spark.
Да, искра может работать без хаоса. Все основные функции искры будут продолжать работать, но вы будете пропускать такие вещи, как легко распределять все ваши файлы (код, а также данные) ко всем узлам кластера через hdfs и т.д.
Да, вы можете установить Spark без Hadoop. Это было бы немного сложно Вы можете ссылаться на ссылку arnon, чтобы использовать паркет для настройки на S3 в качестве хранилища данных. http://arnon.me/2015/08/spark-parquet-s3/
Spark выполняет только обработку и использует динамическую память для выполнения задачи, но для хранения данных вам нужна некоторая система хранения данных. Здесь hasoop входит в состав Spark, он обеспечивает хранилище для Spark. Еще одна причина использования Hadoop с Spark - это открытый исходный код, и оба могут легко интегрироваться друг с другом по сравнению с другими системами хранения данных. Для другого хранилища, такого как S3, вам должно быть сложно настроить его, как упоминание в приведенной выше ссылке.
Но у Hadoop также есть блок обработки, называемый Mapreduce.
Хотите узнать разницу в обоих?
Проверьте эту статью: https://www.dezyre.com/article/hadoop-mapreduce-vs-apache-spark-who-wins-the-battle/83
Я думаю, эта статья поможет вам понять
что использовать,
когда использовать и
как использовать!!!
Согласно документации Spark, Spark может работать без Hadoop.
Вы можете запустить его как автономный режим без какого-либо менеджера ресурсов.
Но если вы хотите запускать в настройке multi- node, вам нужен диспетчер ресурсов, такой как YARN или Mesos, и распределенная файловая система, такая как HDFS, S3 и т.д.
Да, конечно. Spark - независимая вычислительная структура. Hadoop - это система хранения данных (HDFS) с каркасной платформой MapReduce. Spark может получать данные из HDFS, а также любой другой источник данных, такой как традиционная база данных (JDBC), kafka или даже локальный диск.
Да, Spark может работать с установкой Hadoop или без нее, более подробную информацию вы можете найти на странице https://spark.apache.org/docs/latest/.
Нет. Для начала работы требуется полномасштабная установка Hadoop - https://issues.apache.org/jira/browse/SPARK-10944