Учитывая веб-страницу новостей (из любого основного источника новостей, такого как times или bloomberg), я хочу определить основной контент статьи на этой странице и выбросить другие разные элементы, такие как объявления, меню, боковые панели, комментарии пользователей.
Какой общий способ сделать это, который будет работать на большинстве крупных новостных сайтах?
Какие хорошие инструменты или библиотеки для интеллектуального анализа данных? (предпочтительно на основе python)