Я новичок в python, и мне нужна помощь в синтаксисе для поиска и итерации с помощью html-тегов с использованием lxml. Вот примеры использования, с которыми я имею дело:
HTML файл довольно хорошо сформирован (но не идеален). Имеет несколько таблиц на экране, один из которых содержит набор результатов поиска, и один для заголовка и нижнего колонтитула. Каждая строка результата содержит ссылку для подробной информации о результатах поиска.
-
Мне нужно найти среднюю таблицу со строками результатов поиска (это я смог выяснить):
self.mySearchTables = self.mySearchTree.findall(".//table") self.myResultRows = self.mySearchTables[1].findall(".//tr")
-
Мне нужно найти ссылки, содержащиеся в этой таблице (вот где я застреваю):
for searchRow in self.myResultRows: searchLink = patentRow.findall(".//a")
Кажется, что на самом деле нет ссылок на элементы ссылок.
-
Мне нужен простой текст ссылки. Я предполагаю, что это будет что-то вроде
searchLink.text
, если я действительно получил элементы ссылки в первую очередь.
Наконец, в фактической ссылке API для lxml я не смог найти информацию о вызовах find и findall. Я почерпнул их из бит кода, который я нашел в google. Мне не хватает чего-то о том, как эффективно найти и перебрать HTML-теги с помощью lxml?