Это следующий вопрос этого, где jezrael использовал pandas.DataFrame.groupby для увеличения в сотне скорости списка создание. В частности, пусть df
- большой фрейм данных, тогда
index = list(set(df.index))
list_df = [df.loc(x) for x in index]
и
list_df = [x for i,x in df.groupby(level=0, sort=False)]
дает тот же результат, причем последний более чем в 200 раз быстрее первого, даже игнорируя шаг создания списка. Почему?
Я был бы очень рад, если бы кто-то позволил мне понять, почему существует такая огромная разница в производительности. Спасибо заранее!
Изменить:, как предложил Алекс Райли в своем комментарии, я подтверждаю, что тесты выполняются на фреймворке с неидеальным и немонотонным индексом.