Как скручивать или wget веб-страницу?

Я хотел бы сделать ночное задание cron, которое извлекает мою страницу stackoverflow и отличает ее от предыдущей страницы, поэтому я могу увидеть сводку изменений моих вопросов, ответов, ранжирования и т.д.

К сожалению, я не мог получить правильный набор файлов cookie и т.д., чтобы сделать эту работу. Любые идеи?

Кроме того, когда бета закончена, будет ли доступна моя страница статуса без входа?

Ответ 1

Теперь ваша страница статуса доступна без входа в систему (нажмите logout и попробуйте). Когда бета-cookie отключен, между вами и вашей статусной страницей ничего не будет.

Для wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

Ответ 2

От Марк Харрисон

И вот что работает...

curl -s --cookie soba =. https://stackoverflow.com/users

И для wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

Ответ 3

Хорошая идея:)

Я предполагаю, что вы использовали wget

--load-cookies (filename)

может помочь немного, но может быть проще использовать что-то вроде Mechanize (в Perl или python), чтобы более полно имитировать браузер, чтобы получить хорошего паука.

Ответ 4

Я не мог понять, как заставить файлы cookie работать, но мне удалось попасть на мою страницу статуса в моем браузере, когда я вышел из системы, поэтому я предполагаю, что это будет работать, когда stackoverflow станет общедоступным.

Это интересная идея, но разве вы не сможете получить разницу в базовом html-коде? У вас есть стратегия, позволяющая избежать разграничения html, а не фактического контента?

Ответ 5

И вот что работает...

curl -s --cookie soba=. http://stackoverflow.com/users