Как и в этом ответе, представьте, что вам нужно выбрать определенную таблицу, а затем все ее строки. Из-за вседозволенности HTML все три из следующих являются юридической разметкой:
<table id="foo"><tr>...</tr></table>
<table id="foo"><tbody><tr>...</tr></tbody></table>
<table id="foo"><tr>...</tr><tbody><tr>...</tr></tbody></table>
Вы беспокоитесь о таблицах, вложенных в таблицы, и поэтому не хотите использовать XPath, как, например,
table[@id="foo"]//tr
.
Если вы можете указать желаемый XPath в качестве регулярного выражения, он может выглядеть примерно так:
table[@id="foo"](/tbody)?/tr
В общем, как вы можете указать выражение XPath, которое допускает необязательный элемент в иерархии селектора?
Чтобы быть ясным, я не пытаюсь решить проблему реального мира или выбрать конкретный элемент конкретного документа. Я прошу о методах решения класса проблем.