Из моего пользовательского интерфейса Spark. Что это значит, пропущенный?
Что означает "Stage Skipped" в веб-интерфейсе Apache Spark?
Ответ 1
Обычно это означает, что данные были извлечены из кеша, и нет необходимости повторно выполнять данный этап. Это согласуется с вашей DAG, которая показывает, что следующий этап требует перетасовки (reduceByKey
). Всякий раз, когда происходит перетасовка, Spark автоматически кэширует сгенерированные данные:
Shuffle также генерирует большое количество промежуточных файлов на диске. Начиная с Spark 1.3, эти файлы сохраняются до тех пор, пока соответствующие RDD больше не будут использоваться и будут собраны мусор. Это делается для того, чтобы файлы перетасовки не нуждались в повторном создании, если линия повторно вычисляется.