Я попросил question реализовать общую идею для сканирования и сохранения веб-страниц. Часть оригинального вопроса: как сканировать и сохранять много страниц "О" из Интернета.
С некоторыми дальнейшими исследованиями, я получил некоторые варианты, чтобы идти вперед как по очистке, так и по синтаксическому разбору (перечислены внизу).
Сегодня я столкнулся с другим обсуждением Ruby о том, как очистить результаты поиска Google. Это дает отличную альтернативу моей проблеме, которая сэкономит все усилия на части сканирования.
Новый вопрос: на Python, scrape результаты поиска Google для данного ключевого слова, в данном случае "О", и, наконец, получить ссылки для дальнейшего разбора, Каковы наилучшие варианты методов и библиотек? (в меру простой в освоении и простой в реализации).
p.s. в этот веб-сайт, точно такая же вещь реализована, но закрыта и просит денег для получения большего количества результатов. Я бы предпочел сделать это сам, если нет открытого источника и узнать еще Python тем временем.
О, кстати, советы по разбору ссылок из результатов поиска были бы хороши, если они есть. Тем не менее, простой в освоении и простой в реализации. Просто начал изучать Python.: P
Окончательное обновление, проблема решена. Код с помощью xgoogle, пожалуйста, прочитайте примечание в следующем разделе, чтобы сделать работу xgoogle.
import time, random
from xgoogle.search import GoogleSearch, SearchError
f = open('a.txt','wb')
for i in range(0,2):
wt = random.uniform(2, 5)
gs = GoogleSearch("about")
gs.results_per_page = 10
gs.page = i
results = gs.get_results()
#Try not to annnoy Google, with a random short wait
time.sleep(wt)
print 'This is the %dth iteration and waited %f seconds' % (i, wt)
for res in results:
f.write(res.url.encode("utf8"))
f.write("\n")
print "Done"
f.close()
Примечание на xgoogle (ниже ответила Майк Пеннингтон): Последняя версия из него Github уже не работает по умолчанию из-за изменений в результатах поиска Google. Эти два ответа (< a href= " "rel=" nofollow noreferrer" > a b) на домашней странице инструмента дают решение, и в настоящее время он все еще работает с этой настройкой. Но, возможно, на другой день он может перестать работать снова из-за изменения/блокировки Google.
Ресурсы, известные до сих пор:
-
Для соскабливания Scrapy кажется популярным выбором, а webapp называется ScraperWiki очень интересен, и есть другой проект извлеките его для автономного/локального Применение. Mechanize был поднят несколько раз в разных обсуждениях.
-
Для синтаксического анализа HTML BeautifulSoup кажется одним из самых популярный выбор. Конечно. lxml.