Гусеничный скребок

Может ли кто-то различать искатель и скребок с точки зрения объема и функциональности.

Ответ 1

Искатель получает веб-страницы - то есть, учитывая начальный адрес (или набор начальных адресов) и некоторые условия (например, сколько ссылок глубоко, типы файлов, которые нужно игнорировать), он загружает все, что связано с отправная точка (ы).

Скребок берет страницы, которые были загружены [Edit: или, в более общем смысле, данные, отформатированные для отображения], и (попытки) извлечь данные с этих страниц, чтобы можно было (например) сохранить в базе данных и обрабатывать по желанию.

В зависимости от того, как вы используете результат, соскабливание может нарушать права владельца информации и/или пользовательских соглашений об использовании веб-сайтов (сканирование также нарушает последнее в некоторых случаях). Изменить: как упоминал Стивен Судит, многие сайты включают файл с именем robots.txt в своем корневом каталоге (т.е. С URL-адресом http://server/robots.txt) для указания как (и если) сканеры должны обрабатывать этот сайт - в частности, он может перечислять (частичные) URL-адреса, которые искатель не должен пытаться посетить. Они могут быть указаны отдельно для искателя (пользовательского агента), если это необходимо.

Ответ 2

Сканеры просматривают Интернет, следуя ссылкам. Примером может служить робот Google, который получает страницы для индексации. Скребки извлекают значения из форм, но не обязательно имеют какое-либо отношение к сети.

Ответ 3

Веб-искатель получает ссылки (Urls-Pages) в логике и scrapper получает значения (извлечение) из HTML.

Есть так много инструментов для веб-поиска. Посетите страницу, чтобы увидеть некоторые. Любой синтаксический анализатор XML - HTML может использоваться для извлечения (удаления) данных с обходных страниц. (Я рекомендую Jsoup для анализа и извлечения данных)

Ответ 4

Как правило, сканеры будут следить за ссылками, чтобы охватить многочисленные страницы, в то время как скребки в некотором смысле просто вытаскивают содержимое, отображаемое в Интернете, и не достигнут более глубоких ссылок.

Наиболее типичным искателем являются боты Google, которые будут следить за ссылками, чтобы охватить все веб-страницы на вашем веб-сайте, и проиндексировали бы содержимое, если они сочтут это полезным (для чего вам нужен robots.txt, чтобы указать, в каком содержимом вы не хотите индексироваться). Таким образом, мы могли искать такой контент на своем веб-сайте. Хотя цель скребков - просто вытащить содержимое для личного использования и не будет иметь большого влияния на других.

Тем не менее, теперь нет четких различий в искателях и скребках, поскольку некоторые автоматические инструменты для очистки веб-страниц также позволяют сканировать веб-сайт, следуя ссылкам, таким как Octoparse и import.io. Они не являются сканерами, такими как боты Google, но они могут автоматически сканировать веб-сайты, чтобы получить многочисленные данные без кодирования.