В Spark версии 1.2.0 можно использовать subtract
с 2 SchemRDD
, чтобы в итоге получить только один контент из первого
val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)
onlyNewData
содержит строки в todaySchemRDD
, которые не существуют в yesterdaySchemaRDD
.
Как это можно достичь с помощью DataFrames
в Spark версии 1.3.0?