Подтвердить что ты не робот

Остановка индекса страниц Github

У меня есть страница github из моего репозитория username.github.io

Однако я не хочу, чтобы Google сканировал мой сайт и абсолютно не хочу, чтобы он отображался в результатах поиска.

Будет ли работать с robots.txt на страницах github? Я знаю, что есть учебники для остановки индексирования репозитория Github, но как насчет фактической страницы Github?

Ответ 1

Будет ли работать с robots.txt на страницах github?

Если вы используете субдомен GitHub Pages по умолчанию, тогда нет, потому что Google будет проверять только https://github.io/robots.txt.

Вы можете убедиться, что у вас нет ветки master, или что репозиторий GitHub является частным, хотя, как прокомментировал olavimmanuel и подробно описан в olavimmanuel , это ничего не меняйте.

Однако, если вы используете пользовательский домен с вашим сайтом GitHub Pages, вы можете поместить файл robots.txt в корневой каталог вашего репо, и он будет работать, как ожидалось. Одним из примеров использования этого шаблона является репо для Bootstrap.

Ответ 2

Я не знаю, насколько это актуально, но google говорит вы можете остановить пауков с тегом meta:

<meta name="robots" content="noindex">

Я не уверен, однако, если это работает только для всех пауков или только для Google.

Ответ 3

Короткий ответ:

Вы можете использовать файл robots.txt, чтобы прекратить индексирование ваших пользователей на страницах GitHub, добавив его на свою страницу пользователя. Этот файл robots.txt будет активным файлом robots.txt для всех страниц ваших проектов, поскольку страницы проекта доступны в виде подкаталогов (username.github.io/project) в вашем поддомене (имя пользователя.github.io).

Более длинный ответ:

Вы получаете свой собственный поддомен для страниц GitHub (username.github.io). Согласно этому вопросу о MOZ и ссылках на Google, каждый поддомен имеет/нуждается в своем собственном robots.txt.

Это означает, что действительный/активный projectname robots.txt для имени проекта проекта по username пользователя username адресу username.github.io/robots.txt. Вы можете поместить туда файл robots.txt, создав страницу GitHub Pages для своего пользователя.

Это делается путем создания нового проекта/хранилища с именем username.github.io где username - это ваше имя пользователя. Теперь вы можете создать файл robots.txt в основной ветке этого проекта/репозитория, и он должен быть виден по адресу username.github.io/robots.txt. Более подробную информацию о проектах, пользователях и страницах организации можно найти здесь.

Я проверил это в Google, подтвердив право собственности на myusername.github.io, разместив html файл в моем проекте/хранилище https://github.com/myusername/myusername.github.io/tree/master, создав файл robot.txt. тут же проверьте, работает ли мой файл robots.txt с помощью инструментов веб-мастера Googles Search Console (googlebot-fetch). Google действительно перечисляет это как заблокированное, и инструменты веб-мастера Консоли поиска Google (инструмент робота-тестирования) подтверждают это.

Чтобы заблокировать роботов для одного проекта GitHub Page:

User-agent: *
Disallow: /projectname/

Чтобы заблокировать роботов для всех страниц GitHub для вашего пользователя (страницы пользователя и всех страниц проекта):

User-agent: *
Disallow: /

Другие опции

Посмотрите на метатег HTML
Посмотрите на пользовательский домен (перенаправления) для страниц GitHub

Ответ 4

Google не рекомендует использовать файл robots.txt, чтобы не индексировать веб-сайт (в данном случае это страница GitHub). На самом деле большую часть времени он индексируется, даже если вы блокируете бот Google.

Вместо этого вы должны добавить следующее в заголовок страницы, которым легко управлять, даже если вы не используете собственный домен.

<meta name='robots' content='noindex,nofollow' />

Это скажет Google НЕ индексировать его. Где, если вы только заблокируете бот Google, чтобы получить доступ к вашему сайту, он будет индексироваться, как 90% времени, просто не будет показывать мета-описание.