Update
Boilerpipe, похоже, работает очень хорошо, но я понял, что мне не нужен только основной контент, потому что на многих страницах нет статьи, а есть только ссылки с небольшим описанием ко всем текстам (это распространено в новостях порталы), и я не хочу отбрасывать текст шорт.
Итак, если API делает это, получите различные текстовые части/блоки, разделяющие каждый из них каким-либо образом, которые отличаются от одного текста (все в одном тексте не являются полезными), сообщите об этом.
Вопрос
Я загружаю некоторые страницы из случайных сайтов, и теперь я хочу проанализировать текстовое содержимое страницы.
Проблема заключается в том, что на веб-странице есть много контента, например меню, реклама, баннеры и т.д.
Я хочу попытаться исключить все, что не связано с содержимым страницы.
Взяв эту страницу в качестве примера, я не хочу, чтобы меню не было ни ссылок в нижнем колонтитуле.
Важно: Все страницы являются HTML и являются страницами с разных сайтов. Мне нужно указать, как исключить это содержимое.
В данный момент я думаю, что исключая контент из классов "меню" и "баннер" из HTML и последовательных слов, которые выглядят как собственное имя (первая заглавная буква).
Решения могут основываться на текстовом содержимом (без HTML-тегов) или в содержимом HTML (с тегами HTML)
Изменить: Я хочу сделать это внутри своего Java-кода, а не внешнего приложения (если это возможно).
Я пробовал способ анализа содержимого HTML, описанного в этом вопросе: https://stackoverflow.com/info/7035150/how-to-traverse-the-dom-tree-using-jsoup-doing-some-content-filtering