Есть ли способ сохранить дубликаты в собранном наборе в Hive или имитировать сортировку совокупной коллекции, которую Hive предоставляет с помощью другого метода? Я хочу объединить все элементы в столбце с одним и тем же ключом в массив с дубликатами.
то есть:.
hash_id | num_of_cats
=====================
ad3jkfk 4
ad3jkfk 4
ad3jkfk 2
fkjh43f 1
fkjh43f 8
fkjh43f 8
rjkhd93 7
rjkhd93 4
rjkhd93 7
должен вернуться:
hash_agg | cats_aggregate
===========================
ad3jkfk Array<int>(4,4,2)
fkjh43f Array<int>(1,8,8)
rjkhd93 Array<int>(7,4,7)