Подтвердить что ты не робот

Parallelize() при использовании SparkSession в Spark 2.0

Я вижу, что SparkSession не имеет метода .parallelize(). Нужно ли снова использовать SparkContext для создания RDD?. Если это так, создается как SparkSession, так и SparkContext в одной программе?

Ответ 1

Как только вы создадите SparkSession, вы можете получить исходный SparkContext, созданный с ним, как следует:

Давайте рассмотрим, что SparkSession уже определен:

val spark : SparkSession = ???

Теперь вы можете получить SparkContext:

val sc = spark.sparkContext

Ответ 2

Мне нужно импортировать искровые импликации, чтобы создать файл данных, не вызывая распараллеливание.

import org.apache.spark.sql.SparkSession

val spark = SparkSession
  .builder()
  .appName("Spark SQL basic example")
  .master("local")
  //      .config("spark.some.config.option", "some-value")
  .getOrCreate()

import spark.implicits._

val df = Seq(
  (1441637160, 10.0),
  (1441637170, 20.0),
  (1441637180, 30.0),
  (1441637210, 40.0),
  (1441637220, 10.0),
  (1441637230, 0.0)).toDF("timestamp", "value")


df.printSchema()