У меня есть блок данных со схемой как таковой:
[visitorId: string, trackingIds: array<string>, emailIds: array<string>]
Ищете способ группировать (или, может быть, rollup?) этот dataframe от whoid, где столбцы trackingIds и emailIds будут добавляться вместе. Так, например, если мой начальный df выглядит так:
visitorId |trackingIds|emailIds
+-----------+------------+--------
|a158| [666b] | [12]
|7g21| [c0b5] | [45]
|7g21| [c0b4] | [87]
|a158| [666b, 777c]| []
Я бы хотел, чтобы мой вывод df выглядел следующим образом
visitorId |trackingIds|emailIds
+-----------+------------+--------
|a158| [666b,666b,777c]| [12,'']
|7g21| [c0b5,c0b4] | [45, 87]
Попытка использовать операторы groupBy
и agg
, но не имеет большой удачи.