Название здесь довольно понятно, но я расскажу следующее. Некоторые из моих нынешних методов борьбы с этой проблемой основаны на решениях, представленных в этом вопросе. Тем не менее, я столкнулся с несколькими проблемами и ограничениями, поэтому мне было интересно, может ли кто-нибудь попытаться предпринять удар по этой проблеме. Я пытаюсь выяснить проблему, используя bigmemory, но у меня возникли трудности.
Существующие ограничения:
- Использование Linux-сервера с 16 ГБ оперативной памяти
- Размер 40 GB CSV
- Нет строк: 67,194,126,114
Проблемы
- Необходимо иметь возможность случайным образом отображать меньшие массивы данных (5-10 миллионов строк) из большой или матричной структуры данных.
- Нужно уметь удалять любую строку с одним экземпляром NULL при разборе в массив big.matrix или эквивалентную структуру данных.
Пока результаты не очень хорошие. Очевидно, что я что-то проваливаю или, может быть, просто недостаточно понимаю документацию bigmemory. Итак, я подумал, что попрошу здесь посмотреть, использовал ли кто-нибудь
Любые советы, советы по этой линии атаки и т.д.? Или я должен перейти на что-то еще? Я прошу прощения, если этот вопрос очень похож на предыдущий, но я думал, что масштабы данных были примерно в 20 раз больше, чем предыдущие. Спасибо!