У меня очень большой pyspark.sql.dataframe.DataFrame с именем df. Мне нужен какой-то способ перечисления записей, таким образом, доступ к записи с определенным индексом. (или выберите группу записей с диапазоном индексов)
В pandas я мог бы сделать только
indexes=[2,3,6,7]
df[indexes]
Здесь я хочу нечто подобное (и без преобразования данных в pandas)
Ближайшим, к которому я могу добраться, является:
-
Перечисление всех объектов в исходном фрейме данных:
indexes=np.arange(df.count()) df_indexed=df.withColumn('index', indexes)
- Поиск значений, которые мне нужны, с помощью функции where().
ВОПРОСЫ:
- Почему это не работает и как заставить его работать? Как добавить строку в dataframe?
-
Будет ли работать позже, чтобы сделать что-то вроде:
indexes=[2,3,6,7] df1.where("index in indexes").collect()
-
Какой бы быстрый и простой способ справиться с этим?