У меня сейчас очень простой script, который подсчитывает строки в текстовом файле с помощью enumerate()
:
i = 0
f = open("C:/Users/guest/Desktop/file.log", "r")
for i, line in enumerate(f):
pass
print i + 1
f.close()
Это займет около трех с половиной минут, чтобы просмотреть файл журнала размером 15 ГБ с ~ 30 миллионами строк. Было бы здорово, если бы я мог получить это менее двух минут или меньше, потому что это ежедневные журналы, и мы хотим провести ежемесячный анализ, поэтому код должен обработать 30 журналов ~ 15 ГБ - более полутора часов, возможно, и мы хотели бы свести к минимуму время и нагрузку на память на сервере.
Я бы также согласился на хороший метод приближения/оценки, но он должен быть примерно 4 сиг-фига точной...
Спасибо!