Обход Интернета

Я хочу сканировать для определенных вещей. В частности, события, которые происходят, например, концерты, фильмы, открытия художественной галереи и т.д. И т.д. Все, на что можно потратить время.

Как реализовать искатель?

Я слышал о Grub (grub.org → Wikia) и Heritix (http://crawler.archive.org/)

Есть ли другие?

Какие мнения у всех есть?

Джейсон

Ответ 1

Отличный вводный текст для этой темы Введение в информационный поиск (полный текст доступен онлайн). В нем есть глава обход веб-страниц, но, возможно, что более важно, она обеспечивает основу для вещей, которые вы хотите делать с обходными документами.

Введение в информационный поиск http://nlp.stanford.edu/IR-book/iir.jpg

Ответ 2

Там хорошая книга по теме, которую я могу порекомендовать Webbots, Spiders и Screen Scrapers: руководство по разработке интернет-агентов с PHP/CURL.

Ответ 3

Что бы вы ни делали, будьте хорошим гражданином и подчинитесь файлу robots.txt. Вы можете проверить ссылки на странице wikipedia в ориентированных искателях. Просто понял, что я знаю одного из авторов Тематические веб-сканеры: Оценка адаптивных алгоритмов. Маленький мир.

Ответ 4

Проверьте Scrapy. Это открытая веб-платформа для сканирования, написанная на Python (я слышал, что она похожа на Django, но вместо того, чтобы обслуживать страницы, она загружает их). Он легко расширяется, распределяется/параллельно и выглядит очень многообещающим.

Я бы использовал Scrapy, потому что таким образом я мог бы сэкономить свои силы для чего-то более простого, например, как извлечь правильные данные из скребкового контента и т.д. и вставить в базу данных.

Ответ 5

Я думаю, что часть webcrawler будет самой легкой частью задачи. Жесткая часть будет решать, какие сайты посетить и как обнаружить события на сайтах, которые вы хотите посетить. Возможно, вы хотите увидеть, как использовать Google или Yahoo API, чтобы получить нужные данные. Они уже выполнили работу по полному просмотру большого количества страниц в Интернете - вы можете сосредоточиться на моем, во всяком случае, гораздо более сложной проблеме просеивания данных для получения событий, которые вы ищете.

Ответ 6

На самом деле писать масштабный искатель - довольно сложная задача. Я реализовал его на работе и поддерживал его довольно долгое время. Есть много проблем, которые вы не знаете, пока не напишите и не столкнетесь с проблемами. В частности, речь идет о CDN и дружественном обходе сайтов. Адаптивные алгоритмы очень важны или вы отключите фильтры DOS. Вообще-то вы не будете этого знать, если ваш ползание будет достаточно большим.

О чем подумать:

Что, кроме возможности пропускной способности?
Как вы справляетесь с отключением сайта?
Что произойдет, если вы заблокированы?
Вы хотите заниматься скрытным сканированием (противоречивым и на самом деле довольно сложно получить право)?

Я на самом деле написал кое-что, что, если я когда-нибудь обойдусь, я мог бы разместить онлайн о строительстве гусеничного тракта, так как построение правильного намного сложнее, чем люди скажут вам. Большинство сканеров с открытым исходным кодом работают достаточно хорошо для большинства людей, поэтому, если вы можете рекомендовать использовать один из них. Какой из них - выбор функции/платформы.

Ответ 7

Если вы обнаружите, что обход Интернета превращается в задачу для запуска задачи, вы можете рассмотреть возможность создания агрегатора RSS и подписки на RSS-каналы для популярные сайты событий, такие как Craigslist и предстоящий сайт.

Каждый из этих сайтов предоставляет локализованные, доступные для поиска события. RSS предоставляет вам (несколько) стандартизованных форматов вместо того, чтобы иметь все искаженные html, которые составляют сеть...

Существуют библиотеки с открытым исходным кодом, такие как ROME (java), которые могут помочь в использовании RSS-каналов.

Ответ 8

Есть ли специфическое для языка требование?,

Я провел некоторое время, играя с Chilkat Spider Lib для .net некоторое время назад для личного эксперимента,

В последнее время я проверил там пауков Libs, лицензированных как Freeware, (Altho не открытый источник, насколько я знаю:()

Кажется, у них есть python Lib to.

http://www.example-code.com/python/pythonspider.asp #Python http://www.example-code.com/csharp/spider.asp #.Net

Ответ 9

Следуя рекомендациям Кевина в RSS-каналах, вы можете проверить Yahoo. Я еще не пробовал их, но я думаю, что они позволяют обрабатывать несколько RSS-каналов и создавать веб-страницы или больше RSS-каналов.

Ответ 10

Nutch Crawler