Подтвердить что ты не робот

Обобщите условия в dplyr

Я проиллюстрирую свой вопрос на примере.

Пример данных:

 df <- data.frame(ID = c(1, 1, 2, 2, 3, 5), A = c("foo", "bar", "foo", "foo", "bar", "bar"), B =     c(1, 5, 7, 23, 54, 202))

df
  ID   A   B
1  1 foo   1
2  1 bar   5
3  2 foo   7
4  2 foo  23
5  3 bar  54
6  5 bar 202

Что я хочу сделать, это суммировать по ID сумму B и сумму B, когда A является "foo". Я могу сделать это за пару шагов, например:

require(magrittr)
require(dplyr)

df1 <- df %>%
  group_by(ID) %>%
  summarize(sumB = sum(B))

df2 <- df %>%
  filter(A == "foo") %>%
  group_by(ID) %>%
  summarize(sumBfoo = sum(B))

left_join(df1, df2)

  ID sumB sumBfoo
1  1    6       1
2  2   30      30
3  3   54      NA
4  5  202      NA

Тем не менее, я ищу более элегантный/более быстрый способ, поскольку я имею дело с 10gb + из памяти данных в sqlite.

require(sqldf)
my_db <- src_sqlite("my_db.sqlite3", create = T)
df_sqlite <- copy_to(my_db, df)

Я думал использовать mutate для определения нового столбца Bfoo:

df_sqlite %>%
  mutate(Bfoo = ifelse(A=="foo", B, 0))

К сожалению, это не работает в конце базы данных.

Error in sqliteExecStatement(conn, statement, ...) : 
  RS-DBI driver: (error in statement: no such function: IFELSE)
4b9b3361

Ответ 1

Написание комментария @hadley в качестве ответа

df_sqlite %>%
  group_by(ID) %>%
  mutate(Bfoo = if(A=="foo") B else 0) %>%
  summarize(sumB = sum(B),
            sumBfoo = sum(Bfoo)) %>%
  collect

Ответ 2

Вы можете сделать обе суммы в одном dplyr:

df1 <- df %>%
  group_by(ID) %>%
  summarize(sumB = sum(B),
            sumBfoo = sum(B[A=="foo"]))

Ответ 3

Если вы хотите делать подсчет вместо суммирования, то ответ несколько отличается. Изменение кода мало, особенно в условной подсчетной части.

df1 <- df %>%
    group_by(ID) %>%
    summarize(countB = n(),
              countBfoo = sum(A=="foo"))

df1
Source: local data frame [4 x 3]

  ID countB countBfoo
1  1      2         1
2  2      2         2
3  3      1         0
4  5      1         0

Ответ 4

Если вы хотите посчитать строки, а не суммировать их, можете передать переменную в функцию:

    df1 <- df %>%
group_by(ID) %>%
summarize(RowCountB = n(),
          RowCountBfoo = n(A=="foo"))

Я получаю ошибку как с n() и с nrow().