Анализ HTML с помощью Lxml - программирование

Мне нужна помощь, разбор текста с страницы с помощью lxml. Я попробовал beautifulsoup, и html страницы, которую я разобрал, настолько сломан, что это не сработает. Поэтому я перешел к lxml, но документы немного запутываются, и я надеялся, что кто-то здесь может мне помочь.

Здесь - это страница, которую я пытаюсь разобрать, мне нужно получить текст в разделе "Дополнительная информация". Обратите внимание, что у меня есть много страниц на этом сайте, как это для синтаксического анализа, и каждый html-страницы не всегда одинаковы (могут содержать некоторые дополнительные пустые теги "td" ). Любые предложения относительно того, как получить этот текст, будут очень оценены.

Спасибо за помощь.

import lxml.html as lh import urllib2 def text_tail(node): yield node.text yield node.tail url='http://bit.ly/bf1T12' doc=lh.parse(urllib2.urlopen(url)) for elt in doc.iter('td'): text=elt.text_content() if text.startswith('Additional Info'): blurb=[text for node in elt.itersiblings('td') for subnode in node.iter() for text in text_tail(subnode) if text and text!=u'\xa0'] break print('\n'.join(blurb))

import lxml.html as lh import urllib2 url='http://bit.ly/bf1T12' doc=lh.parse(urllib2.urlopen(url)) blurb=doc.xpath('//td[child::*[text()="Additional Info"]]/following-sibling::td/text()') blurb=[text for text in blurb if text != u'\xa0'] print('\n'.join(blurb))

Ответ 1