Spark - Как запустить локальный кластер локально

Есть ли возможность запуска автономного кластера Spark локально только на одной машине (которая в основном отличается от только разрабатываемых заданий локально (т.е. local[*]))?

Пока я запускаю 2 разных виртуальных машины для создания кластера, что делать, если я могу запустить автономный кластер на той же машине, например, три разных JVM?

Может ли что-то вроде множественных обратных адресов сделать трюк?

Ответ 1

да, вы можете сделать это, запустите одного мастера и одного рабочего node, и вам хорошо идти

мастер запуска

./sbin/start-master.sh

запускающий работник

./bin/spark-class org.apache.spark.deploy.worker.Worker  spark://localhost:7077 -c 1 -m 512M

запустить пример SparkPi

./bin/spark-submit  --class org.apache.spark.examples.SparkPi   --master spark://localhost:7077  lib/spark-examples-1.2.1-hadoop2.4.0.jar

Документация автономного режима Apache Spark

Ответ 2

Небольшое обновление как для последней версии (2.1.0), по умолчанию используется привязка мастера к имени хоста, поэтому при запуске рабочего локально используйте вывод hostname:

./bin/spark-class org.apache.spark.deploy.worker.Worker  spark://`hostname`:7077 -c 1 -m 512M

И для запуска примера просто запустите следующую команду:

bin/run-example SparkPi

Ответ 3

Если вы не можете найти файл ./sbin/start-master.sh на своем компьютере, вы можете запустить мастер также с помощью

./bin/spark-class org.apache.spark.deploy.master.Master