Вычисление итоговой статистики столбцов в области данных

У меня есть dataframe следующего вида (например)

shopper_num,is_martian,number_of_items,count_pineapples,birth_country,tranpsortation_method
1,FALSE,0,0,MX,
2,FALSE,1,0,MX,
3,FALSE,0,0,MX,
4,FALSE,22,0,MX,
5,FALSE,0,0,MX,
6,FALSE,0,0,MX,
7,FALSE,5,0,MX,
8,FALSE,0,0,MX,
9,FALSE,4,0,MX,
10,FALSE,2,0,MX,
11,FALSE,0,0,MX,
12,FALSE,13,0,MX,
13,FALSE,0,0,CA,
14,FALSE,0,0,US,

Как я могу использовать Pandas для вычисления сводной статистики для каждого столбца (типы данных столбцов являются переменными, некоторые столбцы не имеют информации

И затем верните DataFrame формы:

columnname, max, min, median,

is_martian, NA, NA, FALSE

Итак, и т.д.

Ответ 1

describe может дать вам все, что вам нужно, иначе вы можете выполнять агрегацию с помощью groupby и передавать список функций agg: http://pandas.pydata.org/pandas-docs/stable/groupby.html#applying-multiple-functions-at-once

In [43]:

df.describe()

Out[43]:

       shopper_num is_martian  number_of_items  count_pineapples
count      14.0000         14        14.000000                14
mean        7.5000          0         3.357143                 0
std         4.1833          0         6.452276                 0
min         1.0000      False         0.000000                 0
25%         4.2500          0         0.000000                 0
50%         7.5000          0         0.000000                 0
75%        10.7500          0         3.500000                 0
max        14.0000      False        22.000000                 0

[8 rows x 4 columns]

Обратите внимание, что некоторые столбцы нельзя суммировать, так как нет логического способа их суммирования, например столбцы, содержащие строковые данные

Как вы предпочитаете, вы можете перенести результат, если хотите:

In [47]:

df.describe().transpose()

Out[47]:

                 count      mean       std    min   25%  50%    75%    max
shopper_num         14       7.5    4.1833      1  4.25  7.5  10.75     14
is_martian          14         0         0  False     0    0      0  False
number_of_items     14  3.357143  6.452276      0     0    0    3.5     22
count_pineapples    14         0         0      0     0    0      0      0

[4 rows x 8 columns]

Ответ 2

Теперь есть пакет pandas_profiling, который является более полной альтернативой df.describe().

Если ваш pandas dataframe имеет формат df, ниже приведен полный анализ, включающий некоторые предупреждения о пропущенных значениях, асимметрии и т.д. В нем также представлены гистограммы и графики корреляции.

import pandas_profiling
pandas_profiling.ProfileReport(df)

Смотрите пример тетради с подробным описанием использования.

Ответ 3

Чтобы уточнить одну точку в ответе @EdChum, в документации вы можете включить столбцы объектов с помощью df.describe(include='all'). Он не будет предоставлять множество статистических данных, но предоставит несколько фрагментов информации, включая количество, количество уникальных значений, верхнее значение. Это может быть новая функция, я не знаю, поскольку я относительно новый пользователь.