Подтвердить что ты не робот

Есть ли способ заставить роботов игнорировать определенный текст?

У меня есть мой блог (вы можете видеть его, если хотите, из моего профиля), и он свежий, а также результаты синтаксического анализа роботов Google.

Результаты были тревожными для меня. По-видимому, наиболее распространенными словами на моем сайте являются "rss" и "feed", потому что я использую текст для ссылок, таких как "Комментарии RSS", "Почтовый фид" и т.д. Эти два слова будут присутствовать в каждом посте, а другие слова будет более редким.

Есть ли способ удалить эти ссылки из разбора Google? Я не хочу, чтобы технические ссылки индексировались. Я хочу, чтобы контент, заголовки и описания индексировались. Я ищу что-то другое, кроме замены этого текста изображениями.

Я нашел несколько старых обсуждений в Google, начиная с 2007 года (я думаю, через 3 года многое изменилось бы, надеюсь, тоже)

Этот вопрос касается не файла robots.txt и того, как заставить Google игнорировать страницы. Речь идет о том, чтобы игнорировать небольшие части страницы или преобразовывать части таким образом, чтобы они были видны людям и невидимы для роботов.

4b9b3361

Ответ 1

Существует простой способ сообщить Google не индексировать части ваших документов, используя googleon и googleoff:

<p>This is normal (X)HTML content that will be indexed by Google.</p>

<!--googleoff: index-->

<p>This (X)HTML content will NOT be indexed by Google.</p>

<!--googleon: index-->

В этом примере второй абзац не будет проиндексирован Google. Обратите внимание на параметр "index", который может быть установлен на любое из следующих значений:

  • index - содержимое, окруженное "googleoff: index", не будет проиндексировано Google

    anchor - текст привязки для любых ссылок в области "googleoff: anchor" не будут связаны с целевой страницей

    snippet - содержимое, окруженное "googleoff: snippet", не будет использоваться для создания фрагментов результатов поиска

    all - содержимое, окруженное "googleoff: all", обрабатывается всеми

источник

Ответ 2

Я работаю над сайтом с топ-3 рейтингами google для тысяч школьных имен в США, и мы делаем большую работу по защите нашего SEO. Есть три основные вещи, которые вы могли бы сделать (которые, вероятно, пустая трата времени, продолжайте читать):

  • Переместите материал, который хотите перевести в нижнюю часть вашего HTML, и используйте CSS и/или разместите его там, где вы хотите, чтобы читатели его увидели. Это не скроет его от сканеров, но они оценят его ниже.
  • Замените эти ссылки изображениями (вы говорите, что не хотите этого делать, но не объясняйте почему)
  • Служить другой странице для искателей, причем эти ссылки разделены. В этом нет ничего черного, если контент в корне тот же, что и браузер. Поисковые системы будут зависеть от вас, если вы будете обслуживать страницу, которая значительно отличается от того, что видят пользователи, но если вы лишили ссылки RSS из версии индекса обходчиков страниц, у вас не возникло бы проблемы.

Тем не менее, сканеры интеллектуальны, и вы не единственный сайт, заполненный ссылками permalink и rss. Они заботятся о контексте и ищут термины и фразы в заголовках и тексте тела. Они знают, как определить, что ваш блог посвящен технологиям, а не RSS. Я очень сомневаюсь, что эти ссылки оказывают какое-то негативное влияние на ваш SEO. Какую проблему вы пытаетесь решить?

Если вы хотите построить SEO, выясните, какую ценность вы предоставляете читателям, и пишите об этом. Скажите интересные вещи, которые приведут других к ссылке на ваш блог, а сканеры поймут, что вы источник информации, который люди ценят. Подумайте больше о том, что ваши читатели видят и понимают, и меньше о том, что вы думаете, что искатель видит.

Ответ 3

Единственный элемент управления, который у вас есть над индексирующими роботами, - файл robots.txt. См. эту документацию, связанную Google на на их странице, объясняющей использование файл.

В основном вы можете запретить определенные ссылки и URL, но не обязательно ключевые слова.

Ответ 4

Помимо черных серверных методов, вы ничего не можете сделать. Возможно, вам захочется посмотреть, почему у вас есть эти слова так часто и удалить некоторые из них с сайта.

Раньше было, что вы можете использовать JS для "скрытия" вещей от googlebot, но теперь вы не можете теперь разбирать JS. (http://www.webmasterworld.com/google/4159807.htm)

Ответ 5

Сначала подумайте о проблеме. Если Google считает, что "RSS" является основным ключевым словом, которое может предполагать, что остальная часть вашего контента немного неглубока и нуждается в расширении. Возможно, это должно быть в центре внимания вашего внимания. Если остальная часть вашего контента богата, я бы не стал беспокоиться об этой проблеме, так как поисковая система должна знать, о чем идет речь в заголовке и заголовках. Просто убедитесь, что RSS и т.д. Не находится в заголовке или жирным или сильным тегом.

Во-вторых, по правде говоря, вы, вероятно, не хотите использовать изображения, так как они не могут быть оценены читателям без текста без текста, и если у них есть текст с текстом или вспомогательный текст, тогда вы добавляете ключевое слово назад. Однако ария live может помочь вы обошли эту проблему, но я не специалист по доступности.

Опции

  • Используйте JavaScript для написания этого содержимого (возможно, после его загрузки). Поисковые системы, такие как Google, могут выполнять JavaScript, но я бы предположил, что он не очень ценит любой написанный JS контент.
  • Повторно добавьте контент или удалите его дубликаты, одна важная ссылка RSS-канала может быть лучше, чем несколько меньших, размещенных вокруг страницы.
  • Используйте атрибут css-контента с псевдо: до или: после добавления вашего контента. Я не уверен, что боты будут индексировать слова в атрибутах контента в CSS и знать это значение содержимого по отношению к каждой странице, но это кажется маловероятным. Полагая слова, подобные RSS в CSS, в основном говорит, что это вещь стиля, а не вещь в HTML, поэтому, даже если двигатели индексируют ее, они не добавят много/никакой ценности для нее. Например, HTML и CSS могут быть:

    <a href="/my-feed.rss" class="add-text"></a>
    
    .add-text:after { content:'View my RSS feed'; }
    

Обратите внимание, что приведенное выше не будет работать в более старых версиях IE, поэтому вам могут потребоваться некоторые комментарии к версии IE, если вам это интересно.

Ответ 6

Google искатель умный, но тот, кто их программирует, является самым умным. Человек всегда видит то, что разумно на странице, они будут тратить время на блог, у которого есть приятный контент и самый редкий и уникальный. Все дело в здравом смысле, как люди посещают ваш блог и сколько времени они проводят. Google измеряет результат поиска таким же образом. Рейтинг вашей страницы также увеличивается с увеличением ежедневных посещений, а контент сайта улучшается и обновляется каждый день. На этой странице слова "Ответ" повторяются несколько раз. Это не значит, что он не будет проиндексирован. Насколько это полезно каждому. Надеюсь, это даст вам некоторую идею.

Ответ 7

Нет, нет ничего подобного. Существуют различные методы на стороне сервера, но если Google поймает, что вы обслуживаете другой текст для своего бота, чем вы даете посетителям сайта, он будет наказывать вас.

Ответ 8

"googleon" и "googleoff" поддерживаются только Google Search Appliance (когда вы размещаете собственные результаты поиска, обычно для своего внутреннего веб-сайта).

Они вообще не поддерживаются веб-поиском Google. Поэтому, пожалуйста, воздержитесь от этого, и я думаю, что это не следует помечать как правильный ответ, так как это может создать двусмысленность.

Теперь, чтобы Google исключил часть страницы, вам нужно будет поместить этот контент в отдельный файл, такой как exclude.html, и использовать iframe для отображения этого контента на странице хоста.

Тег iframe извлекает содержимое из другого файла и вставляет его на страницу хоста. Я думаю, что пока нет другого доступного метода.

Ответ 9

asgjkdasjkdakjsdajksdkjashdlas asdasd as d as d as dd and sd

as d asdasdasdasd

Ответ 10

вам нужно вручную определить "Google Bot" из пользовательского агента запроса и подать им немного другого контента, чем обычно для своего пользователя.