Я пытаюсь создать обобщенный синтаксический анализатор HTML, который хорошо работает в сообщениях в блогах. Я хочу указать свой синтаксический анализатор на конкретный URL-адрес entrie и получить чистый текст сообщения. Мой базовый подход (из python) заключался в использовании комбинации BeautifulSoup/Urllib2, что хорошо, но предполагает, что вы знаете правильные теги для записи в блоге. У кого-нибудь есть лучшие идеи?
Вот некоторые мысли, возможно, кто-то может расширить, что мне еще не хватает знаний/ноу-хау для реализации.
-
Программа unix "lynx", по-видимому, особенно хорошо разбирает сообщения в блоге - какой парсер они используют или как это можно использовать?
-
Существуют ли какие-либо службы/парсеры, которые автоматически удаляют нежелательные объявления и т.д.?
-
В этом случае у меня было смутное представление о том, что может быть хорошо, что сообщения в блоге обычно содержатся в определенном определяющем теге с class= "entry" или чем-то подобным. Таким образом, может быть возможно создать алгоритм, который обнаружил бы теги, содержащие наиболее чистый текст между ними, - любые идеи по этому поводу?
Спасибо!