Я обычно работаю с текстовыми файлами размером ~ 20 Гб и очень часто считаю количество строк в заданном файле.
То, как я делаю это сейчас, просто cat fname | wc -l
, и это занимает очень много времени. Есть ли какое-нибудь решение, которое будет намного быстрее?
Я работаю в высокопроизводительном кластере с установленным Hadoop. Мне было интересно, поможет ли подход с уменьшением карты.
Я хотел бы, чтобы решение было таким же простым, как и однострочное, например, решение wc -l
, но не уверен, насколько это возможно.
Любые идеи?