В Pyspark я могу создать RDD из списка и решить, сколько разделов иметь:
sc = SparkContext()
sc.parallelize(xrange(0, 10), 4)
Как количество разделов, которые я решаю для разделения моего RDD, влияет на производительность? И как это зависит от количества ядра моей машины?