Я планирую использовать webcrawling в приложении, над которым я сейчас работаю. Я провел некоторое исследование на Nutch и провел предварительный тест, используя его. Но потом я наткнулся на ревность. Но когда я сделал некоторые предварительные исследования и просмотрел документацию о scrapy, я обнаружил, что он может захватывать только структурированные данные (вы должны указать имя div, из которого вы хотите захватить данные). Бэкэнд приложения, который я разрабатываю, основан на Python, и я понимаю, что scrapy основано на Python, и некоторые предположили, что scrapy лучше, чем Nutch.
Мое требование состоит в том, чтобы захватить данные из более чем 1000 различных веб-страниц и запустить поиск релевантных ключевых слов в этой информации. Там какой-либо способ лечения может удовлетворить одно и то же требование.
1) Если да, то можете ли вы указать пример того, как это можно сделать?
2) Или Nutch + Solr лучше всего подходит для моего требования