Вы можете рекомендовать библиотеку Java с открытым исходным кодом (предпочтительно лицензию ASL/BSD/LGPL), которая преобразует HTML в обычный текст - очищает все теги, преобразует объекты (&, , и т.д.) и обрабатывает <br> и таблицы правильно.
Дополнительная информация
У меня есть HTML как строка, нет необходимости извлекать его из Интернета. Кроме того, я ищу метод, подобный этому:
String convertHtmlToPlainText(String html)