Я хочу, чтобы scrapy сканировал страницы, где переход к следующей ссылке выглядит следующим образом:
<a href="#" onclick="return gotoPage('2');"> Next </a>
Может ли scrapy интерпретировать код javascript?
С расширением livehttpheaders я узнал, что нажатие Next создает POST с действительно огромным куском "мусора", начинающимся вот так:
encoded_session_hidden_map=H4sIAAAAAAAAALWZXWwj1RXHJ9n
Я пытаюсь создать свой паук в классе CrawlSpider
, но я не могу понять, как его кодировать, с помощью BaseSpider
я использовал метод parse()
для обработки первого URL-адреса, что происходит с быть формой входа, где я сделал POST с:
def logon(self, response):
login_form_data={ 'email': '[email protected]', 'password': 'mypass22', 'action': 'sign-in' }
return [FormRequest.from_response(response, formnumber=0, formdata=login_form_data, callback=self.submit_next)]
И затем я определил submit_next(), чтобы сказать, что делать дальше. Я не могу понять, как сообщить CrawlSpider, какой метод использовать по первому URL?
Все запросы в моем обходе, за исключением первого, являются запросами POST. Они чередуют два типа запросов: вставка некоторых данных и нажатие "Далее" для перехода на следующую страницу.