100 миллионов клиентов кликают 100 миллиардов раз на страницах нескольких веб-сайтов (скажем, 100 сайтов). И поток кликов доступен вам в большом наборе данных.
Используя абстракции Apache Spark, каков наиболее эффективный способ подсчета отдельных посетителей на веб-сайт?