Я ищу модуль Parser HTML для Python, который может помочь мне получить теги в виде списков/словарей/объектов Python.
Если у меня есть документ формы:
<html>
<head>Heading</head>
<body attr1='val1'>
<div class='container'>
<div id='class'>Something here</div>
<div>Something else</div>
</div>
</body>
</html>
то он должен дать мне способ получить доступ к вложенным тегам через имя или идентификатор тега HTML, чтобы я мог в основном попросить его получить содержимое/текст в теге div
с class='container'
, содержащимся в тег body
или что-то подобное.
Если вы использовали функцию Firefox Inspect element (просмотреть HTML), вы бы знали, что она дает вам все теги в хорошем вложенном виде, как дерево.
Я бы предпочел встроенный модуль, но это может потребовать слишком многого.
Я просмотрел множество вопросов о переполнении стека и нескольких блогах в Интернете, и большинство из них предлагают BeautifulSoup или lxml или HTMLParser, но некоторые из них подробно описывают функциональность и просто заканчиваются как дискуссия, по которой быстрее и быстрее ЭФФЕКТИВНАЯ.