Подтвердить что ты не робот

Как просканировать веб-сайт с проверкой SAML с помощью ManifoldCF или nutch?

Я пытаюсь выполнить обход веб-сайта, а именно Google Site с помощью ManifoldCF, который имеет аутентификацию SAML и индексирует обходные данные в Apache Solr. Но когда я просматриваю URL-адрес, он передает мне 302 перенаправление на страницу входа, а затем говорит RESPONSECODENOTINDEXABLE.

Я не уверен, правильно ли я аутентифицирован. В многокомпонентном CF есть опции для проверки подлинности HTTP basic, NTLM authentication и Session-based метода аутентификации учетных данных доступа. Я использовал метод проверки Session based, который больше похож на аутентификацию на основе формы, а не на SAML проверку подлинности.

Кто-нибудь сканировал веб-сайт с использованием multicCF, у которого есть SAML аутентификация? И если не ManifoldCF, смог ли кто-нибудь выполнить это через Apache Nutch, потому что я боюсь, он также обеспечивает только аутентификацию HTTP, Digest и NTLM.

Любое понимание было бы полезно. Можете предоставить дополнительную информацию о проблеме, если кто-то здесь думает, что ее можно легко выполнить. В основном, когда я сканирую https://sites.google.com/a/my-sub-domain.com, он перенаправляется на страницу входа в систему SSO, а искатель отказывается от сканирования, давая 302 ошибку. Это веб-сайт, основанный на интрасети.

4b9b3361

Ответ 1

В аутентификации Nutch forSSO с использованием SAML нет поддержки. Вы должны справиться с этим, написав свой собственный плагин. Мы расширили плагин proptocol-selenium для обработки потоков SAML.

Ответ 2

Не уверен, помогает ли это, просто попробуйте. В nutch мы можем предоставить учетные данные для входа на страницу, у нас есть файл httpclient-auth.xml в каталоге conf. Там u может предоставить имя вашего хоста вместе с учетными данными.

<auth-configuration>
   <credentials username="admin" password="admin123">
      <authscope host="hostname" realm="login"/>
      <default/>
   </credentials>
</auth-configuration>

Аналогичным образом вы можете добавить любое количество учетных данных в эту конфигурацию.

Чтобы обходить сайт https, измените plugin.includes свойство from protocol-http на protocol-httpclient в nutch-conf.xml

Ответ 3

Мы изменили логику в плагине Nutch protocol-selenium для обработки потоков SSO. Вам нужно дождаться перенаправления на страницу единого входа. Затем с помощью селена вы можете справиться с SSO. Снова дождитесь перенаправления на исходную страницу после SSO.

Если требуется двухфакторная аутентификация, все становится сложным. В этом случае вы можете настроить google authenticator (если это разрешено вашим IdP). Вы можете использовать это, чтобы получить ТОП.

Для сканирования файлов за аутентификацией нет обычного способа. Вы можете настроить драйвер так, чтобы он всегда загружал файлы, а затем использовал файл docwnlaoded.

Вы можете обрабатывать поток аутентификации, используя другие http-клиенты. Если вам нужно динамическое содержимое страницы (после того, как все запросы JS и Ajax завершены), тогда лучшим выбором будет селен, а если вы его используете, вы можете переместить всю деталь в селен.