Я работаю с Apache Spark в кластере с использованием HDFS. Насколько я понимаю, HDFS распространяет файлы на узлах данных. Поэтому, если поставить файловую систему "file.txt", она будет разделена на разделы. Теперь я звоню
rdd = SparkContext().textFile("hdfs://.../file.txt")
от Apache Spark. Имеет ли rdd автоматически те же разделы, что и "file.txt" в файловой системе? Что происходит, когда я вызываю
rdd.repartition(x)
где x > , то разделы, используемые hdfs? Будет ли Spark физически переупорядочивать данные по hdfs для работы локально?
Пример: Я поместил 30GB Textfile в HDFS-систему, которая распределяет его на 10 узлах. Will Spark а) использовать те же 10 партионов? и б) перетасовать 30 ГБ по кластеру при вызове перераспределения (1000)?