Подтвердить что ты не робот

Использование parLapply и clusterExport внутри функции

Я задал соответствующий вопрос здесь, и ответ сработал хорошо: используя parLapply параллельного: не удалось получить доступ к переменным в параллельном коде

Проблема в том, что когда я пытаюсь использовать ответ внутри функции, он не будет работать, поскольку я думаю, что он имеет значение по умолчанию clusterExport. Я прочитал виньетку и посмотрел файл справки, но приближаюсь к этому с очень ограниченной базой знаний. Как я использовал parLapply, я ожидал, что он будет вести себя аналогично lapply, но он не отображается.

Вот моя попытка:

par.test <- function(text.var, gc.rate=10){ 
    ntv <- length(text.var)
    require(parallel)
    pos <-  function(i) {
        paste(sapply(strsplit(tolower(i), " "), nchar), collapse=" | ")
    }
    cl <- makeCluster(mc <- getOption("cl.cores", 4))
    clusterExport(cl=cl, varlist=c("text.var", "ntv", "gc.rate", "pos"))
    parLapply(cl, seq_len(ntv), function(i) {
            x <- pos(text.var[i])
            if (i%%gc.rate==0) gc()
            return(x)
        }
    )
}

par.test(rep("I like cake and ice cream so much!", 20))

#gives this error message
> par.test(rep("I like cake and ice cream so much!", 20))
Error in get(name, envir = envir) : object 'text.var' not found
4b9b3361

Ответ 1

По умолчанию clusterExport просматривает .GlobalEnv для экспортируемых объектов, названных в varlist. Если ваши объекты не находятся в .GlobalEnv, вы должны сообщить clusterExport, в какой среде он может найти эти объекты.

Вы можете изменить clusterExport на следующее (которое я не тестировал, но вы сказали, что работает в комментариях)

clusterExport(cl=cl, varlist=c("text.var", "ntv", "gc.rate", "pos"), envir=environment())

Таким образом, он будет искать в среде функций для экспорта объектов.

Ответ 2

Другое решение - включить дополнительные переменные в качестве аргументов вашей функции; parLapply также экспортирует их. Если 'text.var' - большие данные, то стоит сделать их аргументом, к которому применяется, а не индексом, потому что тогда экспортируется только часть text.var, относящаяся к каждому работнику, а не весь объект каждому работнику.

par.test <- function(text.var, gc.rate=10){ 
    require(parallel)
    pos <-  function(i) {
        paste(sapply(strsplit(tolower(i), " "), nchar), collapse=" | ")
    }
    cl <- makeCluster(mc <- getOption("cl.cores", 4))
    parLapply(cl, text.var, function(text.vari, gc.rate, pos) {
        x <- pos(text.vari)
        if (i%%gc.rate==0) gc()
        x
    }, gc.rate, pos)
}

Это также концептуально приятно. (Редко необходимо явно вызывать сборщик мусора).

Управление памятью при использовании source() скрипта вызывает дополнительные проблемы. сравнить

> stop("oops")
Error: oops
> traceback()
1: stop("oops")

с тем же вызовом в скрипте

> source("foo.R")
Error in eval(ei, envir) : oops
> traceback()
5: stop("oops") at foo.R#1
4: eval(ei, envir)
3: eval(ei, envir)
2: withVisible(eval(ei, envir))
1: source("foo.R")

Помните, что функция R serialize(), внутренне используемая parLapply() для перемещения данных работникам, сериализует все вплоть до .GlobalEnv. Таким образом, объекты данных, созданные в сценарии, сериализуются рабочему, тогда как при интерактивном запуске они не будут сериализованы. Это может объяснять проблемы @SeldeomSeenSlim при запуске скрипта. Возможно, решение состоит в том, чтобы более четко отделить "данные" от "алгоритма", например, используя файловую систему или базу данных или... для хранения объектов.