У меня есть файл с умеренным размером (4 ГБ CSV) на компьютере, на котором нет достаточного количества ОЗУ для чтения (8 ГБ в 64-битной Windows). Раньше я просто загружал его в кластер node и читал его, но мой новый кластер, по-видимому, произвольно ограничивал процессы до 4 ГБ ОЗУ (несмотря на аппаратное обеспечение, имеющее 16 ГБ на машину), поэтому мне нужен коротко- долгосрочное исправление.
Есть ли способ прочитать часть CSV файла в R, чтобы соответствовать ограничениям доступной памяти? Таким образом, я мог бы читать в третьем файле за раз, подмножить его на строки и столбцы, которые мне нужны, а затем читать в следующей трети?
Спасибо комментаторам за то, что я могу потенциально читать во всем файле, используя некоторые трюки с большой памятью: Быстрое чтение очень больших таблиц в качестве данных в R
Я могу думать о некоторых других обходных решениях (например, открывать в хорошем текстовом редакторе, отрывать 2/3 наблюдений, затем загружать в R), но я предпочел бы избежать их, если это возможно.
Так что чтение его на куски по-прежнему кажется лучшим вариантом.