Я начинающий API Spark-DataFrame.
Я использую этот код для загрузки csv-разделов в Spark Dataframe
lines = sc.textFile('tail5.csv')
parts = lines.map(lambda l : l.strip().split('\t'))
fnames = *some name list*
schemaData = StructType([StructField(fname, StringType(), True) for fname in fnames])
ddf = sqlContext.createDataFrame(parts,schemaData)
Предположим, что я создаю DataFrame с Spark из новых файлов и конвертирую его в pandas с помощью встроенного метода toPandas(),
- Сохраняет ли объект pandas в локальной памяти?
- Выполняется ли pandas низкоуровневое вычисление с помощью Spark?
- Обнаруживает ли он все функциональные возможности фреймов pandas (я думаю, да)
- Могу ли я преобразовать его в Pandas и просто сделать с ним, не касаясь API DataFrame?