Я хочу создать сгруппированный фильтр, используя dplyr
, таким образом, чтобы в каждой группе возвращалась только эта строка, которая имеет минимальное значение переменной x
.
Моя проблема: как и ожидалось, в случае нескольких минимумов возвращаются все строки с минимальным значением. Но в моем случае я хочу только первую строку, если присутствует несколько минимумов.
Вот пример:
df <- data.frame(
A=c("A", "A", "A", "B", "B", "B", "C", "C", "C"),
x=c(1, 1, 2, 2, 3, 4, 5, 5, 5),
y=rnorm(9)
)
library(dplyr)
df.g <- group_by(df, A)
filter(df.g, x == min(x))
Как и ожидалось, возвращаются все минимумы:
Source: local data frame [6 x 3]
Groups: A
A x y
1 A 1 -1.04584335
2 A 1 0.97949399
3 B 2 0.79600971
4 C 5 -0.08655151
5 C 5 0.16649962
6 C 5 -0.05948012
С ddply я бы подошел к задаче таким образом:
library(plyr)
ddply(df, .(A), function(z) {
z[z$x == min(z$x), ][1, ]
})
... который работает:
A x y
1 A 1 -1.04584335
2 B 2 0.79600971
3 C 5 -0.08655151
Q: Есть ли способ приблизиться к этому в dplyr? (по причинам скорости)