Остановить Google от индексирования

Есть ли способ, чтобы Google не индексировал сайт?

Ответ 1

robots.txt

User-agent: *
Disallow: /

это блокирует все индексы поиска.

для получения дополнительной информации см.: http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40360

Ответ 2

Я должен добавить свой ответ здесь, так как принятый ответ действительно не затрагивает проблему должным образом. Также помните, что предотвращение сканирования Google не означает, что вы можете сохранить свой контент частным.

Мой ответ основан на нескольких источниках: https://developers.google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site/webmasterhelpforum/en/faq--crawling--indexing---ranking

robots.txt Файл контролирует сканирование, но не индексирование! Эти два являются совершенно разными действиями, выполняемыми отдельно. Некоторые страницы могут сканироваться, но не индексироваться, а некоторые могут даже индексироваться но никогда не сканировать. Ссылка на страницу без обхода может существовать на других веб-сайтах, что заставит индексатора Google следовать ей и попытаться индексировать.

Вопрос об индексировании, который собирает данные о странице, чтобы он мог быть доступен через результаты поиска. Это может быть заблокировано добавлением метатега:

<meta name="robots" content="noindex" />

или добавление HTTP-заголовка в ответ:

X-Robots-Tag: noindex

Если вопрос о сканировании, то, конечно, вы можете создать файл robots.txt и поместить следующие строки:

User-agent: *
Disallow: /

Сканирование - это действие, выполняемое для сбора информации о структуре одного конкретного веб-сайта. Например. вы добавили сайт с помощью Инструментов Google для веб-мастеров. Crawler возьмет его на учетную запись и заходит на ваш сайт, ища robots.txt. Если он не найдет, то он предположит, что он может сканировать все (очень важно иметь файл sitemap.xml, чтобы помочь в этой операции, а также указать приоритеты и определить частоты изменения). Если он найдет файл, он будет следовать правилам. После успешного сканирования в какой-то момент выполняется индексирование для обхода страниц, но вы не можете сказать, когда...

Важно. Это означает, что ваша страница все равно может отображаться в результатах поиска Google независимо от robots.txt.

Надеюсь, по крайней мере некоторые пользователи прочитают этот ответ и дадут ему понять, поскольку важно знать, что на самом деле происходит.

Ответ 3

http://www.robotstxt.org/

Ответ 4

FYI - у Google есть сайт для веб-мастеров, который стоит хотя бы проверить.... http://www.google.com/webmasters/start/

Ответ 5

Google выполняет robots.txt файл.

Ответ 6

Я использую простую страницу aspx для передачи результатов из google в мой браузер, используя фальшивый cookie Pref, который получает 100 результатов за раз, и я не хотел, чтобы google отображал эту страницу реле, поэтому я проверяю IP-адрес и если он начинается с 66.249, тогда я просто делаю перенаправление.

Нажмите мое имя, если вы цените конфиденциальность и хотите получить копию.

другой трюк, который я использую, состоит в том, чтобы иметь некоторый javascript, который вызывает страницу, чтобы установить флаг в сеансе, потому что большинство (НЕ ВСЕ) веб-ботов не выполняют javascript, поэтому вы знаете, что это brower с выключенным javascript или более чем бот.

Ответ 7

Также вы можете добавить мета-роботы таким образом:

<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>

И еще один дополнительный слой - изменить .htaccess, но вам нужно его глубоко проверить.

Ответ 8

используйте метатег nofollow:

<meta name="robots" content="nofollow" />

Чтобы указать nofollow на уровне ссылки, добавьте атрибут rel со значением nofollow в ссылку:

<a href="example.html" rel="nofollow" />

Ответ 9

Вы можете отключить этот сервер, добавив нижеприведенный параметр во всем мире в apache conf, или же те же параметры можно использовать в vhost для отключения его только для определенного vhost.

Набор заголовков X-Robots-Tag "noindex, nofollow"

Как только это будет сделано, вы сможете проверить его, вернув заголовки apache.

curl -I staging.mywebsite.com HTTP/1.1 302 Дата основания: сб, 26 нояб. 2016 22:36:33 GMT Сервер: Apache/2.4.18 (Ubuntu) Расположение:/pages/ X-Robots-Tag: noindex, nofollow Content-Type: text/html; кодировка = UTF-8

Ответ 10

Есть ли способ остановить Google индексирование сайта?

Чтобы остановить Google от обхода, просто добавьте тег meta к head каждой страницы:

<meta name="googlebot" content="noindex, nofollow">

Ответ 11

Имейте в виду, что искатель Microsoft для Bing, несмотря на их требования подчиняться robots.txt, не всегда делает это.

Статистика нашего сервера указывает, что у них есть несколько IP-адресов, которые запускают сканеры, которые не подчиняются robots.txt, а также некоторые из них.