Я пытаюсь получить весь контент между открывающим тегом xml и его закрытием.
Получение содержимого в прямых случаях, таких как title
ниже, легко, но как я могу получить весь контент между тегами, если используется смешанный контент, и я хочу сохранить внутренние теги?
<?xml version="1.0" encoding="UTF-8"?>
<review>
<title>Some testing stuff</title>
<text sometimes="attribute">Some text with <extradata>data</extradata> in it.
It spans <sometag>multiple lines: <tag>one</tag>, <tag>two</tag>
or more</sometag>.</text>
</review>
Я хочу, чтобы содержимое между тегами text
, включая теги: Some text with <extradata>data</extradata> in it. It spans <sometag>multiple lines: <tag>one</tag>, <tag>two</tag> or more</sometag>.
В настоящее время я использую регулярные выражения, но это становится бесполезным, и мне не нравится этот подход. Я склоняюсь к решению на основе парсер XML. Я просмотрел minidom
, etree
, lxml
и BeautifulSoup
, но не смог найти решение для этого случая (целое содержимое, включая внутренние теги).