Подтвердить что ты не робот

Как заблокировать спам-ссылки, такие как darodar.com, от доступа к веб-сайту?

У меня есть несколько сайтов, ежедневно посещающих 5% посещений спама. Есть одна странная вещь, которую я заметил об этих источниках: они отображаются в Google Analytics, но я не вижу их в своей таблице, где я вставляю всех посетителей на сайт, поэтому я думаю, что они манипулируют только кодом GA, никогда не достигая сам сайт.

Если вы переходите по их ссылке, они перенаправляют вас на какую-либо связанную ссылку.

Я не знаю, влияют ли они на мой SEO/SERP, но я хотел бы избавиться от них. Могу ли я сделать это через htaccess файл?

Один особенный аспект заключается в том, что я получаю посетителей с разных форумов, таких как страницы. Например: forum.topic221122.darodar.com, forum.topic125512.darodar.com и т.д., Поэтому я хотел бы заблокировать полный домен darodar.com.

Кроме darodar.com, есть также econom.co и iloveitaly.co, которые беспокоят мою статистику. Могу ли я заблокировать их все из htaccess?

4b9b3361

Ответ 1

Этот пост в блоге предполагает, что рефереры спама манипулируют Google Analytics и никогда не посещают ваш сайт, поэтому блокирование их бессмысленно. Google Analytics предлагает фильтрацию, если вы хотите смягчить поддельные хиты сайта.

Ответ 2

Большая часть спама в Google Analytics никогда не обращается к вашему сайту, поэтому вы не можете блокировать их с помощью любого серверного решения.

Призрачный спам попадает непосредственно в GA и обычно появляется только на несколько дней, а затем исчезает, поэтому некоторые люди считают, что они заблокировали их из файла .htaccess, но просто совпадение.

Этот тип спама легко обнаружить, поскольку он использует либо поддельное имя хоста, либо не установлен. (См. Изображение ниже)

Другой тип Сканеры, такие как semalt, фактически получают доступ к вашему сайту и могут быть заблокированы из файла .htaccess, однако их всего несколько.

Итак, в целом, чтобы остановить спам в Google Analytics:

  • Сканеры: серверные решения или фильтры в GA
  • Призраки: ТОЛЬКО фильтры в GA

Единственное эффективное решение, предотвращающее попадание призрачного спама, заключается в создании фильтра include со всеми допустимыми именами хостов.

Сначала вам нужно сделать REGEX со всеми допустимыми именами хостов, что-то вроде этого (их можно найти в сетевом отчете)

yoursite\.com|shoppingcart\.com|translateservice\.net

Вот некоторые примеры; у вас может быть больше или меньше имен хостов. После того, как у вас есть REGEX, выполните те же действия, что и выше, и измените это:

  • Перейдите на вкладку admin в Google Analytics
  • Выберите ФИЛЬТР в столбце "Просмотр" > Новый фильтр
  • Тип фильтра Пользовательский > Включить > Поле фильтра Имя хоста
  • Шаблон файла Скопируйте созданное вами имя хоста

Для сканеров вам придется создать другой фильтр, создающий выражение со всеми спамерами

spammer1|spammer2|spammer3|spammer4|spammer5
  • Тип фильтра Пользовательский > Исключить > Поле фильтра Источник кампании
  • Шаблон файла Скопируйте реферальное выражение

Каждый раз, когда вы работаете с фильтрами, важно сохранить нефильтрованное представление.

Если вам нужны подробные шаги для этих решений, вы можете проверить это полное руководство по спаму в Google Analytics.

Руководство по остановке и удалению всего спама в Google Analytics

Надеюсь, что это поможет.

Отчет о названии хоста Пример valid hostnames

Ответ 3

Да, вы можете заблокировать с .htaccess и на самом деле вы должны это сделать.

Ваш файл .htaccess может выглядеть следующим образом:

<IfModule mod_setenvif.c>
# Set spammers referral as spambot
SetEnvIfNoCase Referer darodar.com spambot=yes
SetEnvIfNoCase Referer 7makemoneyonline.com spambot=yes
## add as many as you find

Order allow,deny
Allow from all
Deny from env=spambot
</IfModule>

Когда трафик поступает с этих сайтов, они блокируются этим .htaccess, поэтому HTML никогда не загружается и поэтому GA script не запускается (с этих сайтов).

Они пытаются получить трафик от вас, как только вы увидите входящий трафик в Google Analytics, затем попытаетесь выяснить, какой источник вы используете для этого URL-адреса. Это безопасно для вашего сайта, за исключением того, что ваша статистика заполнена нежелательными данными.

Google Analytics должна предотвратить это, так же, как GMail предотвращает спам-адрес электронной почты.

Ответ 4

Согласно этой записи, они никогда не посещают ваш сайт, они приносят HTTP-запрос в GA с использованием UA-кода. Таким образом, кажется бессмысленным блокировать их с помощью .htaccess или любого другого метода, потому что они никогда не входят на ваш сайт, они только отправляют поддельные данные о посещении Google.

Ответ 5

Мы обнаружили, что использование htaccess - хороший способ остановить эти спам. Я реализовал ниже решение на моем сайте клиентов, который работает очень хорошо до сих пор. Лучший способ - остановить их с помощью предложения contains, например. spam priceg.com проверить для priceg в URL-адресе реферера.

Поскольку многие из этих сайтов создают поддомены и повторно нажимают, и когда они настраивают URL-адрес, жестко закодированные условия терпят неудачу

RewriteCond% {HTTP_REFERER} (priceg) [NC, OR]
 RewriteCond% {HTTP_REFERER} (darodar) [NC, OR]

Подробно объясняется здесь

Ответ 6

очевидно, это делается спамером, напрямую связавшись с аналитикой google, используя идентификатор учетной записи вашего сайта. Поэтому они эффективно сообщают аналитике Google, что они посетили вашу страницу, а на самом деле они так и не сделали. Они идентифицируют себя с аналитикой посредством URL-адреса, который ОНИ ХОТЯТ ВАС ПОСЕТИТЬ. Таким образом, вы видите их трафик в аналитике Google и проверяете их. У них будет аффилированная учетная запись амазонки, и поэтому они попытаются получить комиссию от покупки вашей амазонки, например.

поэтому .htaccess ничего не сделал для меня, когда я боролся с этим; вам нужно создать фильтр, который отфильтровывает такие вещи, как (. *)/. darodar/.com

реальный плохой эффект, который я нашел из этого, это аннулирует статистику моего сайта

Ответ 7

Вы можете ограничить доступ к использованию .htaccess или путем фильтрации всех посещений роботов от отслеживания Google Analytics. Если это не сработает, настройте фильтрацию Google Analytics. Более подробную информацию о том, как это сделать, можно найти здесь: http://www.wiyre.com/google-analytics-darodar-forum-spam-what-is-it/

Они являются русскими, но маршрутизируют своих пауков через Китай и Филиппины. Возможно, было бы лучше заблокировать весь IP-адрес на данный момент, у них есть несколько поддоменов.

Ответ 8

Я использовал эти методы mod_rewrite для semalt:

RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?semalt\.com.*$ [NC]
RewriteCond %{HTTP_REFERER} ^http(s)?://(.*\.)?semalt\.*$ [NC,OR]
RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*semalt\.com\ [NC,OR]

или с модулем .htaccess mod_setenvif

SetEnvIfNoCase Referer semalt.com spambot=yes
SetEnvIfNoCase REMOTE_ADDR "217\.23\.11\.15" spambot=yes
SetEnvIfNoCase REMOTE_ADDR "217\.23\.7\.144" spambot=yes

Order allow,deny
Allow from all
Deny from env=spambot

Я даже создал черный список "Apache", "Nginx" и "Varnish", а также сегмент Google Analytics, чтобы предотвратить трафик спама в реферере, вы можете найти его здесь:

https://github.com/Stevie-Ray/referrer-spam-blocker/

Ответ 10

Блокирование любых ботов на уровне вашего веб-сервера не имеет смысла - спамеры отправляют поддельные запросы на веб-сервер Google Analytics. Все, что им нужно знать, - это доменное имя веб-сайта и идентификатор Google Analytics, связанный с ним. Таким образом, вы должны замаскировать свой идентификатор Google Analytics на веб-сайте. Например, вы можете сделать это в JS-коде Google Analytics:

ga('create', 'UA-X' + 'XXXXX' + 'XX-X', 'auto');

Спам-бот должен иметь возможность выполнить JS-код для анализа вашего идентификатора Google Analytics после этого изменения (и не так много ботов сможет это сделать).

https://nobodyonsecurity.com/security/fighting-google-analytics-referrer-spam

Ответ 11

.htaccess - это не лучший способ. На моем сайте я использую GA, информацию о отслеживании опций, а затем список исключений ссылок.

Привет!

Ответ 13

Я думаю, что самый эффективный способ избежать спам-призрак - добавить настраиваемое измерение, которое позволит вам знать, что сайт действительно посещен, потому что, как мы знаем, они никогда не посещают сайт.

ga('set', 'dimension1', "Hey I'm really here!!");
ga('send', 'pageview');

Ответ 14

Обновление 2019 года

У меня может быть решение этой проблемы, поскольку я не нахожу ни одно из других решений эффективным.

Позвольте мне сначала рассмотреть проблемы существующих решений

  1. Добавьте фильтр для каждого домена спам-реферера.
  2. Сколько доменов вы добавите?
  3. Большинство из этих спам-доменов реферера существуют некоторое время и затем исчезните
  4. Вести черный список доменов спам реферера.
  5. Это становится еще сложнее, так как их число в основном бесконечно.
  6. Вы должны будете постоянно обновлять черный список.
  7. Чем больше черный список, тем больше времени нужно на его сканирование
  8. Все остальное, например, поддержка htaccess вручную или что-то еще, потребует ручного вмешательства, которое не будет масштабироваться, поскольку ваш сайт становится все более популярным
  9. Все автоматическое, например использование AI для определения закономерностей появления спам-доменов реферера, будет иметь успех/промах

Как работают эти боты?

Во-первых, важно понять, как работают эти боты

  1. Они используют шаблоны регулярных выражений, как минимум, такие как /UA-\d {6}/, чтобы загрузить идентификаторы отслеживания, которые они посещают рекурсивно после запуска на начальном веб-сайте

Я считаю, что у меня есть решение, которое предлагает следующие преимущества

  1. Нет необходимости вести белые и черные списки
  2. Будет легко работать против 99% из них и всегда может быть изменен, чтобы довести его до 100%
  3. Почти не требует ручного вмешательства
  4. Идея состоит в том, чтобы вообще не иметь идентификатора отслеживания в сценарии

Вот пример

script.
      //- Google Analytics ID
      var a = [85, 65, 45, 49, 49, 49, 49, 49, 49, 49, 49, 49, 45, 50];

      var newScript = document.createElement("script");
      newScript.type = "text/javascript";
      newScript.setAttribute("async", "true");
      newScript.setAttribute("src", "https://www.googletagmanager.com/gtag/js?id=" + a.map(i => String.fromCharCode(i)).join(""));
      document.documentElement.firstChild.appendChild(newScript);

      window.dataLayer = window.dataLayer || [];
      function gtag(){dataLayer.push(arguments);}
      gtag('js', new Date());
      gtag('config', a.map(i => String.fromCharCode(i)).join(""), { 'send_page_view': false });
      // Feature detects Navigation Timing API support.
      if (window.performance) {
        // Gets the number of milliseconds since page load
        // (and rounds the result since the value must be an integer).
        var timeSincePageLoad = Math.round(performance.now());
        console.log(timeSincePageLoad)
        // Sends the timing event to Google Analytics.
        gtag('event', 'timing_complete', {
          'name': 'load',
          'value': timeSincePageLoad,
          'event_category': '#{title}'
        });
      }
  1. Мы используем очень простой подход, разбиваем идентификатор отслеживания вида 'UA- 1111111-1' на массив кодов символов

  2. Теперь мы динамически создаем идентификатор отслеживания из массива кодов символов в любой точке, где нам нужна ссылка на идентификатор отслеживания

  3. Подход можно сделать бесконечно более сложным, превратив его в зашифрованную группу чисел, основание 8, шестнадцатеричное, добавив фиксированное смещение, случайное смещение при каждом запуске, RSA зашифровав идентификатор отслеживания с помощью закрытого ключа на сервере и расшифровав его с помощью открытый ключ, но основной подход ДЕЙСТВИТЕЛЬНО быстр, так как массивы в JS действительно быстрые, легко могут победить 99% ботов