У меня просто была эта мысль, и мне было интересно, можно ли сканировать всю сеть (точно так же, как и большие мальчики!) на одном выделенном сервере (например, Core2Duo, 8gig ram, 750gb disk 100mbps) .
Я столкнулся с бумагой, где это было сделано... но я не могу вспомнить этот документ. это было похоже на сканирование всей сети на одном выделенном сервере с использованием некоторой статистической модели.
В любом случае, представьте, что вы начинаете с примерно 10 000 URL-адресов семян и выполняете исчерпывающий обход.
Возможно ли это?
Мне нужно обходить веб-страницы, но ограничено выделенным сервером. как я могу это сделать, есть ли там решение с открытым исходным кодом?
например, см. эту поисковую систему в режиме реального времени. http://crawlrapidshare.com результаты exteremely хорошие и свежее обновление.... как они это делают?