Например, как вы выполняете следующую команду R data.table в pandas:
PATHS[,.( completed=sum(exists), missing=sum(not(exists)), total=.N, 'size (G)'=sum(sizeMB)/1024), by=.(projectPath, pipelineId)]
т.е. группы projectPath
и pipelineId
, агрегировать некоторые из столбцов
используя, возможно, настраиваемые функции, а затем переименуйте полученные столбцы.
Выход должен быть DataFrame без иерархических индексов, например:
projectPath pipelineId completed missing size (G)
/data/pnl/projects/TRACTS/pnlpipe 0 2568 0 45.30824
/data/pnl/projects/TRACTS/pnlpipe 1 1299 0 62.69934