Скажем, у меня есть html-фрагмент:
<p> <span> foo </span> <em> bar <a> foobar </a> baz </em> </p>
Что я хочу извлечь из этого:
foo bar foobar baz
Итак, мой вопрос: как я могу удалить все теги обертки из html и получить только текст в том же порядке, что и в html? Как вы можете видеть в заголовке, я хочу использовать jsoup для синтаксического анализа.
Пример для акцентированного html (обратите внимание на символ "á" ):
<p><strong>Tarthatatlan biztonsági viszonyok</strong></p>
<p><strong>Tarthatatlan biztonsági viszonyok</strong></p>
Что я хочу:
Tarthatatlan biztonsági viszonyok
Tarthatatlan biztonsági viszonyok
Этот html не является статичным, как правило, я просто хочу, чтобы каждый текст обобщенного html-фрагмента в расшифрованном человекочитаемом виде, ширины разрывов строк.