Я пытаюсь создать очень маленькую поисковую систему ниши, используя Nutch для сканирования определенных сайтов. Некоторые из сайтов являются новостями/блогами. Если я сканирую, скажем, techcrunch.com, а также храню и индексирую их главную страницу или любую из их главных страниц, то через несколько часов мой индекс для этой страницы будет устаревшим.
Есть ли у большой поисковой системы, такой как Google, алгоритм для повторного сканирования часто обновляемых страниц очень часто, ежечасно? Или он просто забивает часто обновляемые страницы очень низко, чтобы они не возвращались?
Как я могу справиться с этим в своем приложении?