Это вопрос интервью. Предположим, что есть несколько компьютеров, и каждый компьютер хранит очень большой файл журнала посещенных URL-адресов. Найдите десятку самых посещаемых URL-адресов.
Например: предположим, что всего 3 компьютера, и нам нужны два наиболее посещаемых URL-адреса.
Computer A: url1, url2, url1, url3 Computer B: url4, url2, url1, url1 Computer C: url3, url4, url1, url3 url1 appears 5 times in all logs url2 2 url3 3 url4 2 So the answer is url1, url3
Файлы журналов слишком велики для размещения в ОЗУ и копирования их по сети. Насколько я понимаю, важно также сделать вычисление параллельным и использовать все данные компьютеры.
Как бы вы его разрешили?