Pandas текущая сумма последних пяти минут

Предположим, что у меня ниже фрейма данных

Date, A
2014-11-21 11:00:00, 1
2014-11-21 11:03:00, 4
2014-11-21 11:04:00, 1
2014-11-21 11:05:00, 2
2014-11-21 11:07:00, 4
2014-11-21 11:08:00, 1
2014-11-21 11:12:00, 1
2014-11-21 11:13:00, 2

Первый столбец - это объект datetime, а второй столбец - целое число. Я хочу рассчитать сумму столбца "А" за последние пять минут для каждой строки.

В качестве примера для строки 2014-11-21 11:12:00, 1 сумма столбца "A" будет равна 2 (1 + 1), а сумма столбца "A" для строки 2014-11-21 11:05:00, 2 будет равна 7 (2 + 1 + 4). Важно то, что количество прошлых строк для временного окна (5 минут) не одинаково для каждой строки (поскольку временные ряды нерегулярны).

Как я могу получить сумму последних пяти минут для столбца "А", используя метод roll_sum в pandas? Спасибо заранее.

In [279]: pd.rolling_sum(df.set_index(['Date']).asfreq('1T').fillna(0), window=5, min_periods=1).reindex(df['Date']) Out[279]: A Date 2014-11-21 11:00:00 1 2014-11-21 11:03:00 5 2014-11-21 11:04:00 6 2014-11-21 11:05:00 7 2014-11-21 11:07:00 11 2014-11-21 11:08:00 8 2014-11-21 11:12:00 2 2014-11-21 11:13:00 3

import numpy as np import pandas as pd df = pd.read_csv('data', parse_dates=[0], sep=',\s*') start_dates = df['Date'] - pd.Timedelta(minutes=5) df['start_index'] = df['Date'].values.searchsorted(start_dates, side='right') df['end_index'] = np.arange(len(df)) def sum_window(row): return df['A'].iloc[row['start_index']:row['end_index']+1].sum() df['rolling_sum'] = df.apply(sum_window, axis=1) print(df[['Date', 'A', 'rolling_sum']])

Date A rolling_sum 0 2014-11-21 11:00:00 1 1 1 2014-11-21 11:03:00 4 5 2 2014-11-21 11:04:00 1 6 3 2014-11-21 11:05:00 2 7 4 2014-11-21 11:07:00 4 11 5 2014-11-21 11:08:00 1 8 6 2014-11-21 11:12:00 1 2 7 2014-11-21 11:13:00 2 3

import numpy as np import pandas as pd df = pd.read_csv('data', parse_dates=[0], sep=',\s*') def big_df(df): df = df.copy() for i in range(7): dates = df['Date'] + pd.Timedelta(df.iloc[-1]['Date']-df.iloc[0]['Date']) + pd.Timedelta('1 minute') df2 = pd.DataFrame({'Date': dates, 'A': df['A']}) df = pd.concat([df, df2]) df = df.reset_index(drop=True) return df def using_apply(): start_dates = df['Date'] - pd.Timedelta(minutes=5) df['start_index'] = df['Date'].values.searchsorted(start_dates, side='right') df['end_index'] = np.arange(len(df)) def sum_window(row): return df['A'].iloc[row['start_index']:row['end_index']+1].sum() df['rolling_sum'] = df.apply(sum_window, axis=1) return df[['Date', 'rolling_sum']] def using_asfreq(): result = (pd.rolling_sum( df.set_index(['Date']).asfreq('1T').fillna(0), window=5, min_periods=1).reindex(df['Date'])) return result

Ответ 1