Я использую искру с java, и у меня есть RDD из 5 миллионов строк. Есть ли разрешение, которое позволяет мне рассчитать количество строк моего RDD. Я пробовал RDD.count()
, но это занимает много времени. Я видел, что могу использовать функцию fold
. Но я не нашел java-документацию этой функции.
Не могли бы вы показать мне, как использовать его или показать мне другое решение, чтобы получить количество строк моего RDD.
Вот мой код:
JavaPairRDD<String, String> lines = getAllCustomers(sc).cache();
JavaPairRDD<String,String> CFIDNotNull = lines.filter(notNull()).cache();
JavaPairRDD<String, Tuple2<String, String>> join =lines.join(CFIDNotNull).cache();
double count_ctid = (double)join.count(); // i want to get the count of these three RDD
double all = (double)lines.count();
double count_cfid = all - CFIDNotNull.count();
System.out.println("********** :"+count_cfid*100/all +"% and now : "+ count_ctid*100/all+"%");
Спасибо.