Подтвердить что ты не робот

Python переадресовывает, а затем загружает страницу?

У меня есть следующий python script, и он работает красиво.

import urllib2

url = 'http://abc.com' # write the url here

usock = urllib2.urlopen(url)
data = usock.read()
usock.close()

print data

однако, некоторые из URL, которые я ему даю, могут перенаправить его 2 или более раз. Как я могу заставить python ждать перенаправления до загрузки данных. Например, при использовании вышеуказанного кода с

http://www.google.com/search?hl=en&q=KEYWORD&btnI=1

который является равнозначным ударом удачной кнопки в поиске Google, я получаю:

>>> url = 'http://www.google.com/search?hl=en&q=KEYWORD&btnI=1'
>>> usick = urllib2.urlopen(url)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 126, in urlopen
    return _opener.open(url, data, timeout)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 400, in open
    response = meth(req, response)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 513, in http_response
    'http', request, response, code, msg, hdrs)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 438, in error
    return self._call_chain(*args)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 372, in _call_chain
    result = func(*args)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 521, in http_error_default
    raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
urllib2.HTTPError: HTTP Error 403: Forbidden
>>> 

Ive попробовал (url, data, timeout), однако, я не уверен, что там положить.

EDIT: Я действительно узнал, что если я не перенаправляю и просто использую заголовок первой ссылки, я могу захватить местоположение следующего перенаправления и использовать его в качестве моей последней ссылки

4b9b3361

Ответ 2

Вам нужно все это сделать? Как насчет использования чего-то вроде twill (http://twill.idyll.org/) - делает то, что вы хотите сделать очень просто (и это Python).