При работе с Spark DataFrames для отображения данных в столбцах требуются пользовательские функции (UDF). UDF требуют, чтобы типы аргументов были явно указаны. В моем случае мне нужно манипулировать столбцом, состоящим из массивов объектов, и я не знаю, какой тип использовать. Вот пример:
import sqlContext.implicits._
// Start with some data. Each row (here, there only one row)
// is a topic and a bunch of subjects
val data = sqlContext.read.json(sc.parallelize(Seq(
"""
|{
| "topic" : "pets",
| "subjects" : [
| {"type" : "cat", "score" : 10},
| {"type" : "dog", "score" : 1}
| ]
|}
""")))
Сравнительно просто использовать встроенный org.apache.spark.sql.functions
для выполнения основных операций с данными в столбцах
import org.apache.spark.sql.functions.size
data.select($"topic", size($"subjects")).show
+-----+--------------+
|topic|size(subjects)|
+-----+--------------+
| pets| 2|
+-----+--------------+
и обычно легко писать пользовательские UDF для выполнения произвольных операций
import org.apache.spark.sql.functions.udf
val enhance = udf { topic : String => topic.toUpperCase() }
data.select(enhance($"topic"), size($"subjects")).show
+----------+--------------+
|UDF(topic)|size(subjects)|
+----------+--------------+
| PETS| 2|
+----------+--------------+
Но что, если я хочу использовать UDF для управления массивом объектов в столбце "subject"? Какой тип я использую для аргумента в UDF? Например, если я хочу переопределить функцию размера, вместо того, чтобы использовать тот, который предоставляется искровой:
val my_size = udf { subjects: Array[Something] => subjects.size }
data.select($"topic", my_size($"subjects")).show
Ясно, что Array[Something]
не работает... какой тип я должен использовать!? Должен ли я вообще Array[]
? Выкалывание говорит мне, что scala.collection.mutable.WrappedArray
может иметь какое-то отношение к нему, но все же есть другой тип, который мне нужно предоставить.