Подтвердить что ты не робот

Получить список URL-адресов с сайта

Я развертываю сайт замены для клиента, но они не хотят, чтобы все их старые страницы заканчивались на 404. Сохранение старой структуры URL было невозможно, потому что это было отвратительно.

Итак, я пишу обработчик 404, который должен искать запрашиваемую старую страницу и выполнять постоянную переадресацию на новую страницу. Проблема в том, что мне нужен список всех старых URL-адресов страниц.

Я мог бы сделать это вручную, но мне было бы интересно, есть ли какие-либо приложения, которые предоставят мне список ссылок (например:/page/path, а не http:/.../page/path) только с учетом домашней страницы. Как паук, но тот, который не заботится о содержании, кроме поиска более глубоких страниц.

4b9b3361

Ответ 1

Я не хотел отвечать на свой вопрос, но я просто подумал о запуске генератора Sitemap. Первый, который я нашел http://www.xml-sitemaps.com, имеет хороший текстовый вывод. Идеально подходит для моих нужд.

Ответ 2

do wget -r www.oldsite.com

Тогда просто find www.oldsite.com я обнаружил бы все URL-адреса.

Кроме того, просто отправьте эту пользовательскую не найденную страницу на каждый запрос 404! То есть если кто-то использовал неправильную ссылку, он получит страницу, сообщающую, что страница не найдена, и некоторые подсказки о содержании сайта.

Ответ 3

Вот список генераторов sitemap (из которых, очевидно, вы можете получить список URL-адресов с сайта): http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

Генераторы веб-Sitemap

Ниже приведены ссылки на инструменты, которые генерируют или поддерживают файлы в формат XML Sitemaps, открытый стандарт, определенный на sitemaps.org и поддерживаемых поисковыми системами, такими как Ask, Google, Microsoft Live Поиск и Yahoo!. Файлы Sitemap обычно содержат коллекцию URL-адреса на веб-сайте вместе с некоторыми метаданными для этих URL-адресов. следующие инструменты обычно генерируют XML файл Sitemap и URL-адрес веб-типа (некоторые могут также поддерживать другие форматы).

Обратите внимание: Google не тестировал или не проверял функции или безопасность стороннего программного обеспечения, указанного на этом сайте. пожалуйста направлять любые вопросы относительно программного обеспечения автору программного обеспечения. Надеемся, вам понравятся эти инструменты!

Серверные программы

  • Enarion phpSitemapsNG (PHP)
  • Генератор Sitemap Google (Linux/Windows, 32/64bit, с открытым исходным кодом)
  • Outil en PHP (французский, PHP)
  • Perl Sitemap Generator (Perl)
  • Генератор Sitemap Python (Python)
  • Простые Sitemaps (PHP)
  • XML-динамический генератор Sitemap SiteMap (PHP) $
  • Генератор Sitemap для OS/2 (REXX- script)
  • Генератор Sitemap XML (PHP) $

CMS и другие плагины:

  • ASP.NET - Sitemaps.Net
  • DotClear (испанский)
  • DotClear (2)
  • Drupal
  • Шаблоны ECommerce (PHP) $
  • Шаблоны электронной торговли (PHP или ASP) $
  • LifeType
  • Генератор Sitemap для MediaWiki
  • mnoGoSearch
  • OS Commerce
  • phpWebSite
  • Plone
  • RapidWeaver
  • Textpattern
  • форума
  • Wikka Wiki (PHP)
  • WordPress

Загружаемые инструменты

  • GSiteCrawler (Windows)
  • GWebCrawler и создатель Sitemap (Windows)
  • G-Mapper (Windows)
  • Inspyder Sitemap Creator (Windows) $
  • IntelliMapper (Windows) $
  • Генератор Sitemap Microsys A1 (Windows) $
  • Ярость Google Sitemap Automator $(OS-X)
  • Screaming Frog SEO Spider и генератор Sitemap (Windows/Mac) $
  • Карта сайта Pro (Windows) $
  • Sitemap Writer (Windows) $
  • Генератор Sitemap от DevIntelligence (Windows)
  • Sorrowmans Карта сайта Инструменты (Windows)
  • TheSiteMapper (Windows) $
  • Vigos Gsitemap (Windows)
  • Visual SEO Studio (Windows)
  • Генератор Sitemap WebDesignPros (приложение Java Webstart)
  • Weblight (Windows/Mac) $
  • WonderWebWare Sitemap Generator (Windows)

Онлайн-генераторы/службы

  • AuditMyPc.com Sitemap Generator
  • AutoMapIt
  • Autositemap $
  • Enarion phpSitemapsNG
  • Бесплатный генератор Sitemap
  • Neuroticweb.com Sitemap Generator
  • Генератор Sitemap ROR
  • Генератор Sitemap ScriptSocket
  • SeoUtility Sitemap Generator (итальянский)
  • SitemapDoc
  • Sitemapspal
  • SitemapSubmit
  • Smart-IT-Consulting Google Sitemaps XML Validator
  • Генератор Sitemap XML
  • Генератор XML-Sitemaps

CMS со встроенными генераторами Sitemap

  • concrete5

Создатели Sitemap для новостей Google Следующие плагины позволяют издателям обновить файлы Sitemap для Google Новостей, вариант sitemaps.org, который мы описываем в нашем Справочном центре. К тому же к нормальным свойствам файлов Sitemap, файлы Sitemap для Google позволяют издатели описывают типы контента, который они публикуют, вместе с указав уровни доступа для отдельных статей. Больше информации о новостях Google можно найти в нашем Справочном центре и справочных форумах.

  • Плагин Google News для WordPress

Фрагменты кода/библиотеки

  • ASP script
  • Emacs Lisp script
  • Библиотека Java
  • Perl script
  • Класс PHP
  • Генератор PHP script

Если вы считаете, что инструмент должен быть добавлен или удален для законного пожалуйста, оставьте комментарий в Справочном форуме для веб-мастеров.

Ответ 4

Самое лучшее, что я нашел, это http://www.auditmypc.com/xml-sitemap.asp, который использует Java, и не имеет ограничений на страницах, и даже позволяет экспортировать результаты в виде списка необработанных URL-адресов.

Он также использует сеансы, поэтому, если вы используете CMS, убедитесь, что вы вышли из системы, прежде чем запускать обход.

Ответ 5

Итак, в идеальном мире у вас будет спецификация для всех страниц вашего сайта. У вас также будет тестовая инфраструктура, которая может поразить все ваши страницы, чтобы проверить их.

Вы, по-видимому, не в идеальном мире. Почему бы не сделать это...?

  • Создать сопоставление между скважиной известных старых URL-адресов и новых. Переадресация, когда вы видите старый URL. Я бы подумал о том, чтобы представить "эта страница переместилась, новый URL-адрес это XXX, вы будете перенаправлены в ближайшее время".

  • Если у вас нет сопоставления,    "Извините - эта страница переместилась.   ссылка на главную страницу" и   перенаправляйте их, если хотите.

  • Зарегистрируйте все перенаправления - особенно   которые не имеют сопоставления. Со временем добавьте   сопоставления для страниц, которые   важно.

Ответ 6

wget из linux box также может быть хорошим вариантом, так как есть переключатели для паука и изменение его вывода.

EDIT: wget также доступен в Windows: http://gnuwin32.sourceforge.net/packages/wget.htm

Ответ 7

Я бы рассмотрел любое количество инструментов для создания веб-сайта. Лично я использовал этот один (на основе java) в прошлом, но если вы выполните поиск Google для "файла Sitemap", m Конечно, вы найдете множество различных опций.

Ответ 8

Напишите паука, который читает в каждом html с диска и выводит каждый атрибут "href" элемента "a" (может быть выполнен с помощью синтаксического анализатора). Имейте в виду, какие ссылки принадлежат определенной странице (это обычная задача для массива данных MultiMap). После этого вы можете создать файл сопоставления, который действует как вход для обработчика 404.