Scrapy Vs Nutch

Я планирую использовать webcrawling в приложении, над которым я сейчас работаю. Я провел некоторое исследование на Nutch и провел предварительный тест, используя его. Но потом я наткнулся на ревность. Но когда я сделал некоторые предварительные исследования и просмотрел документацию о scrapy, я обнаружил, что он может захватывать только структурированные данные (вы должны указать имя div, из которого вы хотите захватить данные). Бэкэнд приложения, который я разрабатываю, основан на Python, и я понимаю, что scrapy основано на Python, и некоторые предположили, что scrapy лучше, чем Nutch.

Мое требование состоит в том, чтобы захватить данные из более чем 1000 различных веб-страниц и запустить поиск релевантных ключевых слов в этой информации. Там какой-либо способ лечения может удовлетворить одно и то же требование.

1) Если да, то можете ли вы указать пример того, как это можно сделать?

2) Или Nutch + Solr лучше всего подходит для моего требования

Ответ 1

Scrapy будет отлично работать в вашем случае.

Вы не обязаны указывать имена divs - вы можете получить все, что хотите:

Scrapy поставляется с собственным механизмом для извлечения данных. Theyre называемые селекторами XPath (или просто "селекторами", для краткости), поскольку они "выберите" определенные части документа HTML, указанные в XPath выражения.

Кроме того, вы можете использовать BeautifulSoup и lxml для извлечения данных из содержимого страницы.

Кроме того, Scrapy основан на скрученной и полностью асинхронной и быстрой.

Здесь много примеров спаривающих пауков - просто просмотрите scrapy. Если у вас есть более конкретный вопрос - просто спросите.

Надеюсь, что это поможет.

Ответ 2

Scrapy раздувается и переполняет многие задачи. Удивительно медленно. Его код является хрупким, существуют постоянные изменения, которые ломают ретросовместимость. Если вы используете Scrapy, вы будете тратить больше времени на то, чтобы понять, что происходит с помощью Scrapy.