Я использую Scrapy
web-scraping framework довольно широко, но недавно я обнаружил, что есть еще одна инфраструктура/система, называемая pyspider
, который, согласно ему github-страница, свежий, активно развивается и популярен.
pyspider
перечисляет несколько вещей, которые поддерживаются из коробки:
Мощный WebUI с редактором script, монитором задач, диспетчером проекта и просмотром результатов
Поддерживаются страницы Javascript!
Приоритет задачи, повторный, периодический и recrawl по возрасту или меток на индексной странице (например, время обновления)
Распределенная архитектура
Это те вещи, которые Scrapy
сам не предоставляет, но это возможно с помощью portia
(для Веб-интерфейс), scrapyjs
(для js-страниц) и scrapyd
(развертывание и распространение через API).
Правда ли, что pyspider
может заменить все эти инструменты? Другими словами, pyspider
является прямой альтернативой Scrapy? Если нет, то какие варианты использования он охватывает?
Надеюсь, я не пересекаю линию "слишком широкую" или "основанную на мнениях".