Как отключить определенную страницу из файла robots.txt

Я создаю две страницы на моем сайте, которые очень похожи, но служат для разных целей. Один из них - поблагодарить пользователей за комментарий, а другой - поощрять пользователей к подписке.

Мне не нужен дублированный контент, но я хочу, чтобы страницы были доступны. Могу ли я установить карту сайта, чтобы скрыть ее? Могу ли я сделать это в файле robots.txt?

Отказ выглядит следующим образом:

Запретить:/wp-admin

Как мне настроить конкретную страницу, например:

http://sweatingthebigstuff.com/thank-you-for-commenting

Ответ 1

Disallow: /thank-you-for-commenting

в robots.txt

Взгляните на last.fm файл robots.txt для вдохновения.

Ответ 2

Файлы robots.txt используют регулярные выражения для сопоставления страниц, поэтому, чтобы избежать таргетинга на большее количество страниц, чем вы планируете, вам может потребоваться добавить $в конец имени страницы:

Disallow: /thank-you-for-commenting$

Если вы этого не сделаете, вы также запретите страницу/thank-you-for-commenting-on-this-too

Ответ 3

Это очень простая, любая страница, которую вы хотите запретить, просто укажите корневой URL этого файла или папки. Просто поместите это в свой файл robots.txt.

Disallow: /thank-you-for-commenting

Ответ 4

Вы также можете добавить определенную страницу с расширением в файл robots.txt. В случае тестирования вы можете указать путь к тестовой странице, чтобы запретить сканирование роботов.

Примеры:

 Disallow: /index_test.php
 Disallow: /products/test_product.html
 Disallow: /products/

Первый Disallow: /index_test.php запретит ботам сканировать тестовую страницу в корневой папке.

Второй Disallow: /products/test_product.html запретит test_product.html в папке "продукты".

Наконец, последний пример Disallow: /products/ запретит сканирование всей папки.