Ограничение строки для data.table в R с использованием fread

Я хотел знать, существует ли ограничение на количество строк, которые могут быть прочитаны с помощью функции fread. Я работаю со столом с 4 миллиардами строк, 4 столбцами, около 40 ГБ. Похоже, что fread будет читать только первые ~ 840 миллионов строк. Он не дает никаких ошибок, но возвращает в запрос R, как будто он прочитал все данные!

Я понимаю, что fread не для "prod use" на данный момент, и хотел узнать, существует ли какой-либо временной интервал для реализации выпуска prod.

Причина, по которой я использую data.table, заключается в том, что для файлов таких размеров она чрезвычайно эффективна при обработке данных по сравнению с загрузкой файла в data.frame и т.д.

В настоящий момент я пытаюсь использовать еще две альтернативы -

1) Использование сканирования и перехода к таблице данных.

data.table(matrix(scan("file.csv",what="integer",sep=","),ncol=4))

Resulted in --
Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,  :
  too many items

2) Разбиение файла на несколько отдельных сегментов с ограничением ок. 500 миллионов строк, использующих Unix, и чтение их последовательно... затем циклическое чередование файлов последовательно в fread - немного громоздкое, но похоже, что это единственное работоспособное решение.

Я думаю, что может быть Rcpp-способ сделать это еще быстрее, но я не уверен, как он обычно реализуется.

Спасибо заранее.

collector = vector("list", length(file_map)) # more complex than normal for speed for(index in 1:length(file_map)) { reduced_set <- mclapply(file_map[[index]], function(x) { on.exit(message(sprintf("Completed: %s", x))) message(sprintf("Started: '%s'", x)) fread(x) # <----- CHANGED THIS LINE to fread }, mc.cores=10) collector[[index]]= reduced_set } # Additional line (in place of rbind as in the URL above) for (i in 1:length(collector)) { rbindlist(list(finalList,yourFunction(collector[[i]][[1]]))) } # Replace yourFunction as needed, in my case it was an operation I performed on each segment and joined them with rbindlist at the end.

Ответ 1