Определение говорит:
RDD - неизменяемый распределенный набор объектов
Я не совсем понимаю, что это значит. Это как данные (секционированные объекты), хранящиеся на жестком диске. Если да, то почему RDD может иметь пользовательские классы (такие как java, scala или python)
Из этой ссылки: https://www.safaribooksonline.com/library/view/learning-spark/9781449359034/ch03.html В ней упоминается:
Пользователи создают RDD двумя способами: путем загрузки внешнего набора данных или путем распространение набора объектов (например, списка или набора) в их программа драйвера
Я действительно путаю понимание RDD в целом и относительно искры и хаоса.
Может кто-нибудь помочь.