Я ищу способ для псевдо-паука веб-сайта. Ключ в том, что я действительно не хочу контент, а скорее простой список URI. Я могу приблизиться к этой идее с помощью Wget с помощью параметра --spider
, но когда трубопровод, который выводится через grep
, я похоже, не может найти правильную магию, чтобы заставить ее работать:
wget --spider --force-html -r -l1 http://somesite.com | grep 'Saving to:'
Фильтр grep
, по-видимому, абсолютно не влияет на вывод wget
. У меня что-то не так или есть другой инструмент, который я должен попробовать, чтобы больше ориентироваться на предоставление такого ограниченного набора результатов?
UPDATE
Итак, я просто обнаружил офлайн, что по умолчанию wget
пишет stderr. Я пропустил это на страницах руководства (на самом деле, я все еще не нашел его, если он там). Как только я вернул возвращение к стандарту, я приблизился к тому, что мне нужно:
wget --spider --force-html -r -l1 http://somesite.com 2>&1 | grep 'Saving to:'
Меня все равно интересовали другие/лучшие средства для такого рода вещей, если они существуют.