В Spark Streaming возможно (и обязательно, если вы собираетесь использовать операции с сохранением состояния), чтобы установить StreamingContext
для выполнения контрольных точек в надежное хранилище данных (S3, HDFS,...) of (AND):
- Метаданные
-
DStream
lineage
Как описано здесь, чтобы установить хранилище выходных данных, вам нужно позвонить yourSparkStreamingCtx.checkpoint(datastoreURL)
С другой стороны, можно установить интервалы контрольной точки линии для каждого DataStream
, просто позвонив checkpoint(timeInterval)
в них. Фактически, рекомендуется установить интервал контрольной точки линии между 5 и 10 раз скользящим интервалом DataStream
:
dstream.checkpoint(checkpointInterval). Как правило, контрольно-пропускной пункт интервал 5 - 10 интервалов скольжения DStream - хорошая настройка для попробуйте.
Мой вопрос:
Когда контекст потоковой передачи настроен на выполнение контрольной точки и no ds.checkpoint(interval)
называется, включена ли контрольная точка линии для всех потоков данных со значением по умолчанию checkpointInterval
, равным batchInterval
? Или, наоборот, только метаданные проверяют, что включено?