Я только что создал список python range(1,100000)
.
Использование SparkContext выполнило следующие шаги:
a = sc.parallelize([i for i in range(1, 100000)])
b = sc.parallelize([i for i in range(1, 100000)])
c = a.zip(b)
>>> [(1, 1), (2, 2), -----]
sum = sc.accumulator(0)
c.foreach(lambda (x, y): life.add((y-x)))
Что дает предупреждение следующим образом:
ARN TaskSetManager: Этап 3 содержит задачу с очень большим размером (4644 КБ). Максимальный рекомендуемый размер задачи - 100 КБ.
Как разрешить это предупреждение? Есть ли способ справиться с размером? А также это повлияет на временную сложность больших данных?