Я только что очистил кучу данных Живой ленты Google, и я хочу знать, какие сообщения Buzz ссылаются на те же статьи новостей. Проблема в том, что многие ссылки в этих сообщениях были изменены с помощью сокращений URL-адресов, поэтому может быть, что многие отдельные сокращенные URL-адреса фактически указывают на одну и ту же новостную статью.
Учитывая, что у меня есть миллионы сообщений, для меня наиболее эффективный способ (желательно на python) для
- определить, является ли URL-адресом сокращенный URL-адрес (из любой из многих служб сокращения URL-адресов или, по меньшей мере, самого большого).
- Найдите "пункт назначения" сокращенного URL-адреса, т.е. длинную, оригинальную версию сокращенного URL.
Кто-нибудь знает, если укороченные URL-адреса накладывают строгие ограничения скорости запроса? Если я оставлю это до 100/second (все приходят из одного и того же IP-адреса), вы думаете, что я столкнулся с трудностями?
ОБНОВЛЕНИЕ и ПРЕДВАРИТЕЛЬНОЕ РЕШЕНИЕ Ответы привели к следующему простому решению:
import urllib2
response = urllib2.urlopen("http://bit.ly/AoifeMcL_ID3") # Some shortened url
url_destination = response.url
Что это!