Я пытаюсь получить рабочие веб-страницы с помощью wget, и это хорошо подходит для большинства сайтов со следующей командой:
wget -p -k http://www.example.com
В этих случаях я получаю index.html и необходимый CSS/JS и т.д.
ОДНАКО, в определенных ситуациях URL-адрес будет иметь строку запроса, и в этих случаях я получаю index.html с добавленной строкой запроса.
Пример
www.onlinetechvision.com/?p=566
В сочетании с приведенной выше командой wget будет:
index.html?page=566
Я попытался использовать параметр --restrict-file-names = windows, но это только меня заставило
[email protected]=566
Может ли кто-нибудь объяснить, почему это необходимо, и как я могу получить обычный файл index.html?
ОБНОВЛЕНИЕ: Я как бы нахожусь на заборе о другом подходе. Я узнал, что могу взять первое имя файла, которое wget сохраняет, анализируя вывод. Поэтому имя, появившееся после сохранения: есть тот, который мне нужен.
Однако это обернуто этим странным символом â - а не просто удалением этого жесткого кода - откуда это происходит?