Очистить весь сайт

Я ищу рекомендации для программы по очистке и загрузке всего корпоративного веб-сайта.

Сайт работает на CMS, который перестает работать, и исправление его является дорогостоящим, и мы можем переделать веб-сайт.

Итак, я хотел бы просто получить весь сайт в виде простого содержимого html/css/image и делать небольшие обновления по мере необходимости до появления нового сайта.

Любые рекомендации?

Ответ 1

Рассмотрим HTTrack. Это бесплатная и простая в использовании утилита автономного браузера.

Он позволяет загружать веб-сайт World Wide Web из Интернета в локальный каталог, рекурсивно создавая все каталоги, получая HTML, изображения и другие файлы с сервера на ваш компьютер.

Ответ 2

wget \
     --recursive \
     --no-clobber \
     --page-requisites \
     --html-extension \
     --convert-links \
     --restrict-file-names=windows \
     --domains website.org \
     --no-parent \
         www.website.com

Подробнее об этом здесь.

Ответ 3

Ни один из вышеперечисленных не получил именно то, что мне было нужно (весь сайт и все активы). Это сработало.

Сначала следуйте инструкциям this, чтобы получить wget на OSX.

Затем запустите этот

wget --recursive --html-extension --page-requisites --convert-links http://website.com

Ответ 4

Я знаю, что это супер старый, и я просто хотел поставить свои 2 цента.

wget -m -k -K -E -l 7 -t 6 -w 5 http://www.website.com

Небольшое пояснение относительно каждого из переключателей:

-m По сути, это означает "зеркало сайта", и оно рекурсивно захватывает страницы и изображения, когда они пауки через сайт. Он проверяет метку времени, поэтому, если вы запустите wget во второй раз с этим коммутатором, он будет обновлять только файлы/страницы, которые являются более новыми, чем предыдущее время.

-k Это изменит ссылки в html, чтобы указать на локальные файлы. Если вместо использования таких вещей, как page2.html в качестве ссылок на вашем сайте, вы фактически использовали полный http://www.website.com/page2.html, который вам, вероятно, понадобится/захочет. Я включаю его только для того, чтобы быть в безопасности - возможно, по крайней мере 1 ссылка вызовет проблему иначе.

-k Опция выше (нижний регистр k) изменяет html. Если вы хотите "нетронутую" версию, используйте этот переключатель, и он сохранит как измененную версию, так и оригинал. Его просто хорошая практика в случае, если что-то не так, и вы хотите сравнить обе версии. Вы всегда можете удалить тот, который вам больше не нужен.

-E Это сохраняет HTML и CSS с "правильными расширениями". Осторожно с этим - если на вашем сайте не было .html расширений на каждой странице, это добавит его. Однако, если на вашем сайте уже есть файл с чем-то вроде ".htm", вы теперь получите ".htm.html".

-l 7 По умолчанию, -m, который мы использовали выше, будет recurse/spider через весь сайт. Обычно это нормально. Но иногда ваш сайт будет иметь бесконечный цикл, в котором wget будет загружаться навсегда. Подумайте о типичном примере website.com/products/jellybeans/sort-by-/name/price/name/price/name/price. Его несколько редкие в настоящее время - большинство сайтов ведут себя хорошо и обычно не делают этого, но, чтобы быть в безопасности, выясните, сколько кликов нужно сделать, чтобы добраться от главной страницы до любой реальной страницы на веб-сайте, мало (это сосало бы, если бы вы использовали значение 7 и узнали через час, что ваш сайт был на 8 уровней!) и используйте это #. Конечно, если вы знаете, что у вашего сайта есть структура, которая будет вести себя, нет ничего плохого в том, чтобы опустить это и с комфортом узнать, что на самом деле была найдена 1 скрытая страница на вашем сайте, которая была на 50 уровней.

-t 6 При попытке доступа к/загрузке определенной страницы или файла происходит сбой, это задает количество попыток, прежде чем он откажется от этого файла и продолжит работу. Обычно вы хотите, чтобы он в конечном итоге сдался (установите его на 0, если вы хотите, чтобы он пытался навсегда), но вы также не хотите, чтобы он сдавался, если сайт был просто неустойчивым на секунду или два. Я считаю 6 разумным.

-w 5 Это означает, что wget ожидает несколько секунд (5 секунд в этом случае), прежде чем захватить следующий файл. Его часто критично использовать что-то здесь (не менее 1 секунды). Позволь мне объяснить. По умолчанию wget будет захватывать страницы так быстро, как это возможно. Это может быть несколько запросов в секунду, которые могут нанести огромную нагрузку на сервер (особенно, если сайт написан на PHP, делает MySQL доступ к каждому запросу и не использует кеш). Если веб-сайт находится на совместном хостинге, эта загрузка может заставить кого-то запустить свой хост. Даже на VPS это может привести некоторые сайты на колени. И даже если сам сайт выживет, бомбардировка безумным количеством запросов в течение нескольких секунд может выглядеть как атака DOS, которая вполне может заставить ваш IP-автоблокировать. Если вы не знаете наверняка, что сайт может обрабатывать массовый приток трафика, используйте -w # switch.5, как правило, вполне безопасны. Даже 1, вероятно, хорошо в большинстве случаев. Но используйте что-то.

Ответ 5

wget -r --no-parent http://www.website.com

@shadyabhi ответ только дал мне index.html

Ответ 6

Лучший способ - очистить его с помощью wget, как это было предложено в ответе @Abhijeet Rastogi. Если вы не знакомы, то Blackwidow - приличный скребок. Я использовал его в прошлом. http://www.sbl.net/

Ответ 7

Вы также можете попробовать этот сайт загрузчик. Он конвертирует очищенный сайт в CMS. https://en.archivarix.com/