У меня есть работа Spark, которая читает исходную таблицу, выполняет ряд операций map/flatten/reduce, а затем сохраняет результаты в отдельной таблице, которую мы используем для отчетности. В настоящее время это задание выполняется вручную с помощью spark-submit
script. Я хочу запланировать его запуск каждую ночь, чтобы результаты были предварительно заполнены в начале дня. У меня:
- Настройте задание cron, чтобы вызвать
spark-submit
script? - Добавить планирование в мой класс работы, чтобы он был отправлен один раз, но выполняет действия каждую ночь?
- Есть ли встроенный механизм в Spark или отдельный script, который поможет мне сделать это?
Мы запускаем Spark в автономном режиме.
Любые предложения оценены!