Scrapy, сломать данные внутри Javascript

Я использую scrapy, чтобы очистить данные с веб-сайта. Однако данные, которые я хотел, были не внутри самого html, а из javascript. Итак, мой вопрос:

Как получить значения (текстовые значения) таких случаев?

Это сайт, который я пытаюсь экранировать: https://www.mcdonalds.com.sg/locate-us/

Атрибуты, которые я пытаюсь получить: Адрес, контакт, часы работы.

Если вы сделаете "правый щелчок", "просмотрите исходный код" внутри браузера Chrome, вы увидите, что такие значения недоступны сами по себе в HTML.

Изменить

Sry paul, я сделал то, что вы мне сказали, нашел admin-ajax.php и увидел тело, но я действительно застрял сейчас.

Как получить значения из объекта json и сохранить его в поле переменной? Было бы хорошо, если бы вы могли поделиться тем, как сделать только один атрибут для публики, а также для тех, кто только начал очищать.

Здесь мой код пока

Items.py

class McDonaldsItem(Item):
name = Field()
address = Field()
postal = Field()
hours = Field()

McDonalds.py

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
import re

from fastfood.items import McDonaldsItem

class McDonaldSpider(BaseSpider):
name = "mcdonalds"
allowed_domains = ["mcdonalds.com.sg"]
start_urls = ["https://www.mcdonalds.com.sg/locate-us/"]

def parse_json(self, response):

    js = json.loads(response.body)
    pprint.pprint(js)

Sry для длинного редактирования, так, короче говоря, как я могу сохранить значение json в свой атрибут? например,

*** item ['address'] = * как получить ****

P.S, не уверен, что это помогает, но я запускаю эти скрипты в строке cmd с помощью

scrapy crawl mcdonalds -o McDonalds.json -t json (чтобы сохранить все мои данные в json файле)

Я не могу достаточно подчеркнуть, насколько я благодарен. Я знаю, что это неразумно спросить об этом у, полностью будет в порядке, даже если у вас нет времени для этого.

Ответ 1

(Я разместил это в списке рассылки scrapy-users, но по предложению Пола я отправляю его здесь, поскольку он дополняет ответ взаимодействием команды shell.)

Как правило, веб-сайты, которые используют стороннюю службу для визуализации некоторой визуализации данных (карты, таблицы и т.д.), должны как-то отправить данные, и в большинстве случаев эти данные доступны из браузера.

В этом случае проверка (например, просмотр запросов, сделанных браузером) показывает, что данные загружаются из запроса POST на https://www.mcdonalds.com.sg/wp-admin/admin-ajax.php

Итак, в основном у вас есть все необходимые данные в хорошем формате json, готовом к потреблению.

Scrapy предоставляет команду shell, которая очень удобна для мыслителя с сайта перед написанием паука:

$ scrapy shell https://www.mcdonalds.com.sg/locate-us/
2013-09-27 00:44:14-0400 [scrapy] INFO: Scrapy 0.16.5 started (bot: scrapybot)
...

In [1]: from scrapy.http import FormRequest

In [2]: url = 'https://www.mcdonalds.com.sg/wp-admin/admin-ajax.php'

In [3]: payload = {'action': 'ws_search_store_location', 'store_name':'0', 'store_area':'0', 'store_type':'0'}

In [4]: req = FormRequest(url, formdata=payload)

In [5]: fetch(req)
2013-09-27 00:45:13-0400 [default] DEBUG: Crawled (200) <POST https://www.mcdonalds.com.sg/wp-admin/admin-ajax.php> (referer: None)
...

In [6]: import json

In [7]: data = json.loads(response.body)

In [8]: len(data['stores']['listing'])
Out[8]: 127

In [9]: data['stores']['listing'][0]
Out[9]: 
{u'address': u'678A Woodlands Avenue 6<br/>#01-05<br/>Singapore 731678',
 u'city': u'Singapore',
 u'id': 78,
 u'lat': u'1.440409',
 u'lon': u'103.801489',
 u'name': u"McDonald Admiralty",
 u'op_hours': u'24 hours<br>\r\nDessert Kiosk: 0900-0100',
 u'phone': u'68940513',
 u'region': u'north',
 u'type': [u'24hrs', u'dessert_kiosk'],
 u'zip': u'731678'}

Короче говоря: в вашем пауке вы должны вернуть FormRequest(...) выше, а затем в обратном вызове загрузите json-объект из response.body и, наконец, для каждого хранилища данных в списке data['stores']['listing'] создайте элемент с требуемыми значениями.

Что-то вроде этого:

class McDonaldSpider(BaseSpider):
    name = "mcdonalds"
    allowed_domains = ["mcdonalds.com.sg"]
    start_urls = ["https://www.mcdonalds.com.sg/locate-us/"]

    def parse(self, response):
        # This receives the response from the start url. But we don't do anything with it.
        url = 'https://www.mcdonalds.com.sg/wp-admin/admin-ajax.php'
        payload = {'action': 'ws_search_store_location', 'store_name':'0', 'store_area':'0', 'store_type':'0'}
        return FormRequest(url, formdata=payload, callback=self.parse_stores)

    def parse_stores(self, response):
        data = json.loads(response.body)
        for store in data['stores']['listing']:
            yield McDonaldsItem(name=store['name'], address=store['address'])

Ответ 2

Когда вы открываете https://www.mcdonalds.com.sg/locate-us/ в своем браузере по выбору, откройте инструмент проверки (надеюсь, у него есть один, например Chrome или Firefox) и найдите вкладку "Сеть".

Вы можете дополнительно фильтровать события "XHR" (XMLHttpRequest), и вы увидите запрос POST на https://www.mcdonalds.com.sg/wp-admin/admin-ajax.php с этим телом

action=ws_search_store_location&store_name=0&store_area=0&store_type=0

Ответ на этот запрос POST - это объект JSON со всей необходимой информацией.

import json
import pprint
...
class MySpider(BaseSpider):
...
    def parse_json(self, response):

        js = json.loads(response.body)
        pprint.pprint(js)

Это выведет что-то вроде:

{u'flagicon': u'https://www.mcdonalds.com.sg/wp-content/themes/mcd/images/storeflag.png',
 u'stores': {u'listing': [{u'address': u'678A Woodlands Avenue 6<br/>#01-05<br/>Singapore 731678',
                           u'city': u'Singapore',
                           u'id': 78,
                           u'lat': u'1.440409',
                           u'lon': u'103.801489',
                           u'name': u"McDonald Admiralty",
                           u'op_hours': u'24 hours<br>\r\nDessert Kiosk: 0900-0100',
                           u'phone': u'68940513',
                           u'region': u'north',
                           u'type': [u'24hrs', u'dessert_kiosk'],
                           u'zip': u'731678'},
                          {u'address': u'383 Bukit Timah Road<br/>#01-09B<br/>Alocassia Apartments<br/>Singapore 259727',
                           u'city': u'Singapore',
                           u'id': 97,
                           u'lat': u'1.319752',
                           u'lon': u'103.827398',
                           u'name': u"McDonald Alocassia",
                           u'op_hours': u'Daily: 0630-0100',
                           u'phone': u'68874961',
                           u'region': u'central',
                           u'type': [u'24hrs_weekend',
                                     u'drive_thru',
                                     u'mccafe'],
                           u'zip': u'259727'},

                        ...
                          {u'address': u'60 Yishuan Avenue 4 <br/>#01-11<br/><br/>Singapore 769027',
                           u'city': u'Singapore',
                           u'id': 1036,
                           u'lat': u'1.423924',
                           u'lon': u'103.840628',
                           u'name': u"McDonald Yishun Safra",
                           u'op_hours': u'24 hours',
                           u'phone': u'67585632',
                           u'region': u'north',
                           u'type': [u'24hrs',
                                     u'drive_thru',
                                     u'live_screening',
                                     u'mccafe',
                                     u'bday_party'],
                           u'zip': u'769027'}],
             u'region': u'all'}}

Я оставлю вас, чтобы извлечь нужные поля.

В FormRequest(), который вы отправляете с помощью Scrapy, вероятно, вам нужно добавить заголовок "X-Requested-With: XMLHttpRequest" (ваш браузер отправляет это, если вы посмотрите на заголовки запроса в инструменте проверки)