Группа PySparkByKey возвращает pyspark.resultiterable.ResultIterable

Я пытаюсь выяснить, почему мой groupByKey возвращает следующее:

[(0, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a210>), (1, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a4d0>), (2, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a390>), (3, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a290>), (4, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a450>), (5, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a350>), (6, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a1d0>), (7, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a490>), (8, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a050>), (9, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a650>)]

У меня есть значения flatMapped, которые выглядят следующим образом:

[(0, u'D'), (0, u'D'), (0, u'D'), (0, u'D'), (0, u'D'), (0, u'D'), (0, u'D'), (0, u'D'), (0, u'D'), (0, u'D')]

Я делаю просто:

groupRDD = columnRDD.groupByKey()

Ответ 1

То, что вы возвращаете, - это объект, который позволяет вам перебирать результаты. Вы можете преобразовать результаты groupByKey в список, вызвав список() для значений, например.

example = sc.parallelize([(0, u'D'), (0, u'D'), (1, u'E'), (2, u'F')])

example.groupByKey().collect()
# Gives [(0, <pyspark.resultiterable.ResultIterable object ......]

example.groupByKey().map(lambda x : (x[0], list(x[1]))).collect()
# Gives [(0, [u'D', u'D']), (1, [u'E']), (2, [u'F'])]

Ответ 2

вы также можете использовать

example.groupByKey().mapValues(list)

Ответ 3

Вместо использования groupByKey() я предлагаю вам использовать cogroup(). Вы можете обратиться к приведенному ниже примеру.

[(x, tuple(map(list, y))) for x, y in sorted(list(x.cogroup(y).collect()))]

Пример:

>>> x = sc.parallelize([("foo", 1), ("bar", 4)])
>>> y = sc.parallelize([("foo", -1)])
>>> z = [(x, tuple(map(list, y))) for x, y in sorted(list(x.cogroup(y).collect()))]
>>> print(z)

Вы должны получить желаемый результат...

Ответ 4

Пример:

r1 = sc.parallelize([('a',1),('b',2)])
r2 = sc.parallelize([('b',1),('d',2)])
r1.cogroup(r2).mapValues(lambdax:tuple(reduce(add,__builtin__.map(list,x))))

Результат:

[('d', (2,)), ('b', (2, 1)), ('a', (1,))]