Я ищу выражение regex, которое позволит мне извлечь содержимое HTML только из тегов тела из документа XHTML.
XHTML, который мне нужен для синтаксического анализа, будет очень простым файлом, мне не нужно беспокоиться о содержании JavaScript или тегах <![CDATA[
, например.
Ниже ожидаемая структура HTML файла заключается в том, что мне приходится разбираться. Поскольку я точно знаю все содержимое HTML файлов, с которыми мне придется работать, этот фрагмент HTML в значительной степени охватывает весь мой прецедент. Если я могу получить регулярное выражение, чтобы извлечь тело этого примера, я буду счастлив.
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>
</title>
</head>
<body contenteditable="true">
<p>
Example paragraph content
</p>
<p>
</p>
<p>
<br />
</p>
<h1>Header 1</h1>
</body>
</html>
Понятно, что я пытаюсь создать строку регулярных выражений, которая соответствует всем, кроме внутреннего содержимого тела. При этом я бы использовал метод С# Regex.Split()
для получения содержимого тела. Я думал об этом регулярном выражении:
((.|\n)*<body (.)*>)|((</body>(*|\n)*)
... сделал бы трюк, но он, похоже, не работает вообще с моим тестовым контентом в RegexBuddy.