Может кто-то рассказать, как можно преобразовать dataframe
в RDD
?
Как преобразовать DataFrame в RDD в Scala?
Ответ 1
Просто:
val rows: RDD[Row] = df.rdd
Ответ 2
Используйте df.map(row => ...)
для преобразования данных в RDD, если вы хотите сопоставить строку с другим элементом RDD. Например
df.map(row => (row(1), row(2)))
дает вам парное RDD, где первым столбцом df является ключ, а второй столбец df - это значение.
Ответ 3
Я просто искал свой ответ и нашел этот пост.
Жан ответ на абсолютно правильный, добавив, что "df.rdd" вернет RDD [Строки]. Мне нужно применить split() после получения RDD. Для этого нам нужно преобразовать RDD [Row] в RDD [String]
val opt=spark.sql("select tags from cvs").map(x=>x.toString()).rdd