Альтернативный веб-гудок для Nutch

Я пытаюсь создать специализированный веб-сайт поисковой системы, который индексирует ограниченное количество веб-сайтов. Решение, которое я придумал, это:

используя Nutch в качестве веб-искателя,
используя Solr в качестве поисковой системы,
интерфейсный код и логика сайта закодированы с помощью Wicket.

Проблема в том, что я считаю, что Nutch достаточно сложный, и это большая часть программного обеспечения для настройки, несмотря на то, что детальная документация (книги, последние учебники и т.д.) просто не существует.

Теперь вопросы:

Любая конструктивная критика о дырочной идее сайта?
Есть ли еще одна простая альтернатива Nutch (как обходная часть сайта)?

Спасибо

Ответ 1

Scrapy - это библиотека python, которая сканирует веб-сайты. Он довольно мал (по сравнению с Nutch) и предназначен для ограниченного обхода сайтов. Он имеет стиль MVC типа Django, который я нашел довольно простым в настройке.

Ответ 2

Для части обхода мне очень нравится anemone и crawler4j. Они оба позволяют вам добавить свою собственную логику для выбора ссылок и обработки страниц. Для каждой страницы, которую вы решили сохранить, вы можете легко добавить вызов Solr.

Ответ 3

In, С#, но намного проще, и вы можете напрямую общаться с автором. (Я)

Я использовал Nutch, и вы правы; это медведь, с которым можно работать.

http://arachnode.net

Ответ 4

Это зависит от количества веб-сайтов и URL-адресов, которые, по вашему мнению, сканируются. Apache Nutch хранит страницы документов на Apache HBase (который опирается на Apache Hadoop), он прочный, но очень сложный для настройки и администрирования.

Обходчик - это только выборка страницы (например, CURL) и список ссылок, которые будут заполнять ваш список URL-адресов и т.д. Итак, если вы намерены сканировать менее 1 000 000 страниц, я уверен, что вы можете написать сканер самостоятельно (особенно если у вас есть несколько веб-сайтов), используйте простую базу данных MySQL и ElasticSearch.

Конечно, искатель может быть более сложным, вы можете удалить из своего HTML-документа часть HEAD и сохранить только настоящий "контент" страницы. Также у вас может быть оценка "ранга" (возможно, путем смешивания социальной репутации сайта, pagerank и т.д.).

Ответ 5

Я считаю, что nutch - лучший выбор для вашего приложения, но если вы хотите, есть простой инструмент: Heritrix. Кроме того, я рекомендую js для внешнего интерфейса, потому что solr возвращает json, который легко обрабатывается js.