Я столкнулся с вопросом интервью "Если бы вы разрабатывали веб-искателя, как бы вы избегали попадания в бесконечные циклы?", и я пытаюсь ответить на него.
Как все начинается с самого начала. Скажем, Google начал с некоторых страниц-концентраторов сказать, что сотни из них (как эти страницы концентратора были найдены в первую очередь, это другой вопрос). Поскольку Google следует за ссылками со страницы и т.д., Продолжает ли она делать хеш-таблицу, чтобы убедиться, что она не соответствует ранее посещенным страницам.
Что делать, если на той же странице есть 2 имени (URL), которые говорят в наши дни, когда у нас есть URL-адреса и т.д.
Я привел Google в качестве примера. Хотя Google не утечка, как работают его алгоритмы поиска веб-страниц и ранжирования страниц, но любые догадки?