Spark добавляет новый столбец в dataframe со значением из предыдущей строки

Мне интересно, как я могу добиться следующего в Spark (Pyspark)

Начальный Dataframe:

+--+---+
|id|num|
+--+---+
|4 |9.0|
+--+---+
|3 |7.0|
+--+---+
|2 |3.0|
+--+---+
|1 |5.0|
+--+---+

Результирующий Dataframe:

+--+---+-------+
|id|num|new_Col|
+--+---+-------+
|4 |9.0|  7.0  |
+--+---+-------+
|3 |7.0|  3.0  |
+--+---+-------+
|2 |3.0|  5.0  |
+--+---+-------+

Мне удается в целом "добавить" новые столбцы в фреймворк данных, используя что-то вроде: df.withColumn("new_Col", df.num * 10)

Однако я не знаю, как я могу добиться этого "сдвига строк" для нового столбца, так что новый столбец имеет значение поля из предыдущей строки (как показано в примере). Я также не мог найти ничего в документации API о том, как получить доступ к определенной строке в DF по индексу.

Любая помощь будет оценена.

from pyspark.sql.functions import lag, col from pyspark.sql.window import Window df = sc.parallelize([(4, 9.0), (3, 7.0), (2, 3.0), (1, 5.0)]).toDF(["id", "num"]) w = Window().partitionBy().orderBy(col("id")) df.select("*", lag("num").over(w).alias("new_col")).na.drop().show() ## +---+---+-------+ ## | id|num|new_col| ## +---+---+-------| ## | 2|3.0| 5.0| ## | 3|7.0| 3.0| ## | 4|9.0| 7.0| ## +---+---+-------+

Ответ 1