Я попытался отфильтровать даты для определенных файлов, используя искру Apache внутри файла, в функцию RDD sc.textFile()
.
Я попытался сделать следующее:
sc.textFile("/user/Orders/201507(2[7-9]{1}|3[0-1]{1})*")
Это должно соответствовать следующему:
/user/Orders/201507270010033.gz
/user/Orders/201507300060052.gz
Любая идея, как достичь этого?