Как разумно анализировать данные, возвращаемые результатами поиска на странице?
Например, скажем, что я хотел бы создать веб-сервис, который ищет онлайн-книги, анализируя результаты поиска на многих сайтах поставщиков книг. Я мог бы получить необработанные HTML-данные на странице и сделать некоторые регулярные выражения, чтобы заставить данные работать для моего веб-сервиса, но если какой-либо из сайтов изменит форматирование страниц, мой код сломается!
RSS действительно замечательный вариант, но многие сайты не имеют поиска на основе XML/JSON.
Существуют ли какие-либо комплекты, которые помогают автоматически распространять информацию на страницах? Сумасшедшая идея заключалась бы в том, чтобы иметь нечеткий AI-модуль распознавать шаблоны на странице результатов поиска и анализировать результаты соответственно...