Подтвердить что ты не робот

Что означает "Stage Skipped" в веб-интерфейсе Apache Spark?

Из моего пользовательского интерфейса Spark. Что это значит, пропущенный?

Ответ 1

Обычно это означает, что данные были извлечены из кеша, и нет необходимости повторно выполнять данный этап. Это согласуется с вашей DAG, которая показывает, что следующий этап требует перетасовки (reduceByKey). Всякий раз, когда происходит перетасовка, Spark автоматически кэширует сгенерированные данные:

Shuffle также генерирует большое количество промежуточных файлов на диске. Начиная с Spark 1.3, эти файлы сохраняются до тех пор, пока соответствующие RDD больше не будут использоваться и будут собраны мусор. Это делается для того, чтобы файлы перетасовки не нуждались в повторном создании, если линия повторно вычисляется.