HyperLogLog алгоритм Flajolet и др. описывает умный способ оценки мощности набора, использующего только небольшой объем памяти. Однако он принимает учет всех N элементов исходного набора в расчете. Что если у нас был доступ только к небольшой случайной выборке (скажем, 10%) исходного N? Проводилось ли какое-либо исследование того, как HyperLogLog или подобные алгоритмы могут быть адаптированы к этой ситуации?
Я знаю, что это по существу проблема, описываемая как отдельная оценка стоимости, для которой существует множество исследований (см., например, this бумага для обзора). Однако, исследование, посвященное отдельной оценке стоимости, которое я знаю, использует число специальных оценок, очень отличающихся от подхода, используемого HyperLogLog. Поэтому мне интересно, думал ли кто-нибудь об адаптации HyperLogLog для отдельной задачи оценки стоимости.