Итак, пусть у меня есть rdd с 3000 строк. Первые строки 2000 относятся к классу 1, а 1000 последних строк относятся к классу 2. RDD разделен на 100 разделов.
При вызове RDD.randomSplit(0.8,0.2)
Функция также перетасовывает rdd? Наше разделение просто пробует 20% непрерывно из rdd? Или он выбирает 20% разделов случайным образом?
В идеале результирующий раскол имеет такое же распределение классов, что и исходное RDD. (то есть 2: 1)
Спасибо