Подтвердить что ты не робот

Рекомендации по использованию инструмента Spidering для использования с Lucene или Solr?

Что такое хороший искатель (паук) для использования с документами HTML и XML (локальный или веб-интерфейс) и хорошо работает в пространстве решений Lucene/Solr? Может быть Java-based, но не обязательно.

4b9b3361

Ответ 1

По-моему, это довольно значительная дыра, которая удерживает широкое распространение Solr. Новый DataImportHandler является хорошим первым шагом для импорта структурированных данных, но для Solr не существует хорошего процесса приема документов. Nutch действительно работает, но интеграция между Nutch hrawler и Solr несколько неуклюжа.
Я пробовал каждый искатель с открытым исходным кодом, который я могу найти, и ни один из них не интегрирует готовые приложения с Solr.
Следите за OpenPipeline и Apache Tika.

Ответ 2

Я пробовал nutch, но было очень сложно интегрироваться с Solr. Я бы посмотрел на Геритрикс. Он имеет обширную систему плагинов, которая упрощает интеграцию с Solr, и она намного быстрее сканируется. Он широко использует потоки для ускорения процесса.

Ответ 3

Я предлагаю вам проверить Nutch, чтобы получить вдохновение:

Nutch - это программное обеспечение для поиска с открытым исходным кодом. Он основан на Lucene Java, добавляя веб-специфику, например, искатель, базу данных link-graph, парсеры для HTML и других форматов документов и т.д.

Ответ 4

Также проверьте Apache Droids [http://incubator.apache.org/droids/] - это не просто простая инфраструктура spider/crawler/worker.

Это новое и еще не очень удобное для использования с полки (потребуется немного поворота, чтобы бегать), но это хорошо, что нужно держать в поле зрения.

Ответ 5

Nutch может быть вашим самым близким совпадением, но он не слишком гибкий.

Если вам нужно что-то еще, вам придется довольно много взломать свой собственный искатель. Это не так плохо, как кажется, на каждом языке есть веб-библиотеки, поэтому вам просто нужно подключить диспетчер очереди задач с HTTP-загрузчиком и парсером HTML, это не так много работает. Скорее всего, вы можете уйти с помощью одного окна, поскольку обход в основном зависит от полосы пропускания, а не от интенсивного использования ЦП.

Ответ 6

http://arachnode.net

С#, но производит файлы с потребляемым пользователем Lucene (Java и С#).

Ответ 7

Кто-нибудь пробовал Xapian? Это происходит намного быстрее, чем solr и написано на С++.