Я не в состоянии найти какой-либо хороший веб-интерфейс API на основе Java. Сайт, который мне нужно почистить, также не предоставляет API; Я хочу перебрать все веб-страницы с использованием некоторого pageID
и извлечь заголовки HTML/другие материалы в их DOM-деревьях.
Существуют ли другие способы, кроме очистки веб-страниц?