Перебирайте столбцы в таблице данных и преобразуйте эти столбцы

У меня есть data.table DT с столбцом с именем RF и многими столбцами с подчеркиванием _ в нем. Я хочу пропустить все эти столбцы с помощью подчеркнуть и вычесть из него столбец RF. Однако я застрял. Кажется, что все на RHS Оператор := в data.table не работает с динамическими переменными.

Вот мой DT и желаемый вывод (hardcoded):

library(data.table)
DT <- data.table(RF  = 1:10,
                 S_1 = 11:20,
                 S_2 = 21:30)
#Desired output
DT[ , S_1 := S_1 - RF]
DT[ , S_2 := S_2 - RF]
DT
      RF S_1 S_2
 [1,]  1  10  20
 [2,]  2  10  20
 [3,]  3  10  20
...

Однако, я хочу, чтобы это было более гибким, т.е. перебирало каждый столбец с именем "_" в его имени и вычитал RF:

#1. try: Does not work; Interestingly, the i on the LHS of := is interpreted as the column i, but on the RHS of
#:= it is interpreted as 2 and 3, respectively
for (i in grep("_", names(DT))){
  DT[ , i:= i - 1, with=FALSE]
}
DT
          RF  S_1 S_2
 [1,]  1   1   2
 [2,]  2   1   2
 [3,]  3   1   2
...

#2. try: Work with parse and eval
for (i in grep("_", names(DT), value=TRUE)){
  DT[ , eval(parse(text=i)):= eval(parse(text=i)) - RF]
}
#Error in eval(expr, envir, enclos) : object 'S_1' not found

Любые подсказки, как это сделать, были бы замечательными.

EDIT: Как только я разместил вопрос, я подумал: "Почему вы работаете с оператором := в первую очередь, и, конечно же, я просто понял, что мне не нужно. Это работает и не нуждается в цикле:

DT[, grep("_", names(DT)), with=FALSE] - DT[, RF]

Извините за это. Однако я оставляю вопрос открытым, потому что меня все еще интересует, почему мой подход с оператором := не работает. Так что, может быть, кто-то может мне помочь.

Ответ 1

Вы были на правильном пути со второй попытки. Вот подход, использующий substitute для построения выражения, которое передается как аргумент 'j' в DT[ , j ].

for (i in grep("_", names(DT), value=TRUE)){
    e <- substitute(X := X - RF, list(X = as.symbol(i)))
    DT[ , eval(e)]
}
DT
#     RF S_1 S_2
# [1,]  1  10  20
# [2,]  2  10  20
# [3,]  3  10  20
# [4,]  4  10  20
# [5,]  5  10  20

Вы также можете использовать выражение LHS вместо символа:

for (i in grep("_", names(DT), value=TRUE))
    DT[, (i) := get(i)-RF]

Ответ 2

Обходной путь, который я, к сожалению, обнаружил после публикации вопроса, выглядит следующим образом:

DT[, .SD, .SDcols = patterns('_')] - DT[, RF]

Это также работает в более сложной настройке, в которой есть дополнительные столбцы, которые вы хотите сохранить, но с некоторыми дополнительными усилиями:

library(data.table)
DT <- data.table(RF  = 1:10,
                 S_1 = 11:20,
                 S_2 = 21:30,
                 addCol = rnorm(10)) #Column that should not be subtracted by RF, but still kept in DT

DT <- cbind(DT[, .SD, .SDcols = patterns("_")] - DT[, RF], addCol = DT[, addCol])

Ответ 3

Обновлено для использования set() + ..; set является мощным (см. правки для более ранней попытки).

varnames <- grep("_", names(DT), value=TRUE)
set(DT, j = varnames, value = DT[, ..varnames] - DT[, RF])