Я пытаюсь выполнить обход веб-сайта, а именно Google Site
с помощью ManifoldCF
, который имеет аутентификацию SAML и индексирует обходные данные в Apache Solr. Но когда я просматриваю URL-адрес, он передает мне 302
перенаправление на страницу входа, а затем говорит RESPONSECODENOTINDEXABLE
.
Я не уверен, правильно ли я аутентифицирован. В многокомпонентном CF есть опции для проверки подлинности HTTP basic
, NTLM authentication
и Session-based
метода аутентификации учетных данных доступа. Я использовал метод проверки Session based
, который больше похож на аутентификацию на основе формы, а не на SAML
проверку подлинности.
Кто-нибудь сканировал веб-сайт с использованием multicCF, у которого есть SAML
аутентификация? И если не ManifoldCF
, смог ли кто-нибудь выполнить это через Apache Nutch, потому что я боюсь, он также обеспечивает только аутентификацию HTTP
, Digest
и NTLM
.
Любое понимание было бы полезно. Можете предоставить дополнительную информацию о проблеме, если кто-то здесь думает, что ее можно легко выполнить. В основном, когда я сканирую https://sites.google.com/a/my-sub-domain.com, он перенаправляется на страницу входа в систему SSO, а искатель отказывается от сканирования, давая 302 ошибку. Это веб-сайт, основанный на интрасети.