Подтвердить что ты не робот

Как получить суммарную сумму по группе в R?

Предположим, что у меня есть такой кадр данных, что:

df<-data.frame(id=1:8,group=c(1,0,0,1,1,0,1,0),rep=c(rep("d1",4),rep("d2",4)),value=rbinom(8,1,0.6))
df
  id group rep value
1  1     1  d1     0
2  2     0  d1     0
3  3     0  d1     0
4  4     1  d1     1
5  5     1  d2     1
6  6     0  d2     0
7  7     1  d2     1
8  8     0  d2     1

Какой лучший способ получить кумулятивную сумму на group и rep так, чтобы:

cumsum
group d1  d1+d2  d1+d2+d3
0     0     1      ...
1     1     3      ...
4b9b3361

Ответ 1

library(data.table)

# convert to data.table in place
setDT(df)

# dcast and do individual sums
dt.cast = dcast.data.table(df, group ~ rep, value.var = 'value',
                           fun.aggregate = sum)
dt.cast
#   group d1 d2
#1:     0  0  1
#2:     1  1  2

# cumsum
dt.cast[, as.list(cumsum(unlist(.SD))), by = group]
#   group d1 d2
#1:     0  0  1
#2:     1  1  3

Ответ 2

Я бы рекомендовал работать с tidy форма данных. Здесь подход с dplyr, но было бы тривиально перевести на data.table или base R.

Сначала я создам набор данных, установив случайное семя, чтобы сделать пример воспроизводимого:

set.seed(1014)
df <- data.frame(
  id = 1:8,
  group = c(1, 0, 0, 1, 1, 0, 1, 0),
  rep = c(rep("d1", 4), rep("d2", 4)),
  value = rbinom(8, 1, 0.6)
)
df

%>   id group rep value
%> 1  1     1  d1     1
%> 2  2     0  d1     0
%> 3  3     0  d1     0
%> 4  4     1  d1     1
%> 5  5     1  d2     1
%> 6  6     0  d2     1
%> 7  7     1  d2     1
%> 8  8     0  d2     1

Далее, используя dplyr, я сначала скрою отдельные строки по группам и затем вычислить суммарную сумму:

library(dplyr)

df <- df %>% 
  group_by(group, rep) %>%
  summarise(value = sum(value)) %>%
  mutate(csum = cumsum(value))
df

%> Source: local data frame [4 x 4]
%> Groups: group
%> 
%>   group rep value csum
%> 1     0  d1     0    0
%> 2     0  d2     2    2
%> 3     1  d1     2    2
%> 4     1  d2     2    4

В большинстве случаев вам лучше оставить данные в этой форме (это будет легче работать), но вы можете изменить форму, если вам нужно:

library(reshape2)

dcast(df, group ~ rep, value.var = "csum")

%>   group d1 d2
%> 1     0  0  2
%> 2     1  2  4