У меня есть большой текстовый файл размером 13 ГБ с 158 609 739 строк, и я хочу случайным образом выбрать 155 000 000 строк.
Я попытался скрестить файл, а затем разрезал первые строки 155000000, но похоже, что моя память RAM (16 ГБ) недостаточно велика для этого. Попытки трубопровода:
shuf file | head -n 155000000
sort -R file | head -n 155000000
Теперь вместо того, чтобы выбирать строки, я думаю, что больше памяти эффективно удаляет 3,609,739 случайных строк из файла, чтобы получить окончательный файл из 155000000 строк.