Это скорее концептуальный вопрос, у меня нет конкретной проблемы.
Я изучаю python для анализа данных, но я очень хорошо знаком с R - одна из замечательных вещей о R - plyr (и, конечно же, ggplot2) и даже лучше dplyr. Pandas, конечно, имеет split-apply, но в R я могу делать такие вещи, как (в dplyr, немного отличается в plyr, и теперь я вижу, как dplyr имитирует нотацию от объектного программирования)
data %.% group_by(c(.....)) %.% summarise(new1 = ...., new2 = ...., ..... newn=....)
в котором я создаю несколько сводных вычислений в то же время
Как это сделать в python, потому что
df[...].groupby(.....).sum() only sums columns,
а на R у меня может быть одно среднее, одна сумма, одна специальная функция и т.д. на один вызов
Я понимаю, что могу выполнять все свои операции отдельно и объединять их, и это нормально, если я использую python, но когда дело доходит до выбора инструмента, любая строка кода, которую вы не должны вводить, проверять и проверять складывается вовремя
Кроме того, в dplyr вы также можете добавить инструкции mutate, так что мне кажется, что это намного мощнее - так что мне не хватает о Pandas или python -
Моя цель - учиться, я потратил много усилий на изучение питона, и это достойная инвестиция, но все же остается вопрос