Скремблирование ajax-страниц с использованием python

Я уже видел этот вопрос об очистке ajax, но питон здесь не упоминается. Я рассмотрел использование scrapy, я считаю, что у них есть несколько документов по этому вопросу, но, как вы видите, сайт не работает. Поэтому я не знаю, что делать. Я хочу сделать следующее:

У меня есть только один url, example.com, который вы переходите со страницы на страницу, нажав кнопку submit, URL-адрес не изменяется, так как они используют ajax для отображения содержимого. Я хочу очистить содержимое каждой страницы, как это сделать?

Давайте скажем, что я хочу очистить только цифры, есть ли что-то другое, кроме scrapy, которое это сделает? Если нет, не могли бы вы дать мне фрагмент о том, как это сделать, только потому, что их веб-сайт недоступен, поэтому я не могу связаться с документами.

Ответ 1

Прежде всего, документация по плагированию доступна в https://scrapy.readthedocs.org/en/latest/.

Говоря об обработке ajax при веб-очистке. В принципе, идея довольно проста:

открыть инструменты разработчика, вкладку сети
перейти на целевой сайт
нажмите кнопку отправки и посмотрите, что XHR request отправляется на сервер
смоделируйте этот запрос XHR в вашем пауке

Также смотрите:

Надеюсь, что это поможет.

Ответ 2

Я нашел ответ очень полезным, но я хотел бы сделать его более простым.

response = requests.post(request_url, data=payload, headers=request_headers)

request.post принимает три параметра url, data и headers. Значения для этих трех атрибутов можно найти в запросе XHR.

Скопируйте весь заголовок запроса и данные формы, чтобы загрузить в вышеуказанные переменные, и вы можете пойти