У меня есть Spark DataFrame (с использованием PySpark 1.5.1) и хотел бы добавить новый столбец.
Я пробовал следующее без каких-либо успехов:
type(randomed_hours) # => list
# Create in Python and transform to RDD
new_col = pd.DataFrame(randomed_hours, columns=['new_col'])
spark_new_col = sqlContext.createDataFrame(new_col)
my_df_spark.withColumn("hours", spark_new_col["new_col"])
Также получена ошибка:
my_df_spark.withColumn("hours", sc.parallelize(randomed_hours))
Итак, как мне добавить новый столбец (на основе вектора Python) в существующий DataFrame с PySpark?