Я пишу сканер с Python с помощью BeautifulSoup, и все идет плавно, пока я не наткнулся на этот сайт:
Я получаю содержимое с библиотекой запросов:
r = requests.get('http://www.elnorte.ec/')
content = r.content
Если я делаю печать переменной содержимого в этой точке, все испанские специальные символы, похоже, работают нормально. Однако, как только я попытаюсь передать переменную content в BeautifulSoup, все это перепуталось:
soup = BeautifulSoup(content)
print(soup)
...
<a class="blogCalendarToday" href="/component/blog_calendar/?year=2011&month=08&day=27&modid=203" title="1009 artÃculos en este dÃa">
...
Он, по-видимому, искажает все испанские специальные персонажи (акценты и еще много чего). Я попытался сделать content.decode('utf-8'), content.decode('latin-1'), также попытался перепутаться с параметром fromEncoding в BeautifulSoup, установив его с помощью Encoding = 'utf-8' и fromEncoding = 'latin-1', но до сих пор нет кубиков.
Любые указатели будут высоко оценены.