Реферальный спам: схемы атак и меры противодействия

Входящий трафик — один из ключевых показателей успеха любого веб-сайта. Операторы используют такие показатели, как хиты, посещения и впечатления от страниц, для измерения потока посетителей и оценки эффективности веб-проекта. Анализ файлов журналов предоставляет оператору эту информацию. Кроме того, операторы веб-сайтов используют веб-программные решения, такие как Google Analytics, Piwik или etracker, для записи и анализа данных о посещаемости. Если возникают аномалии, это может быть связано с реферальным спамом (также известным как referrer spam). Мы расскажем вам, как обнаружить подобные спам-атаки и предотвратить фальсификацию статистики в будущем.

Что такое реферальный спам?

Реферальный спам — это форма спама в поисковых системах, когда хакеры пытаются манипулировать лог-файлами и статистикой анализа определенных веб-сайтов. Цель — создать так называемый фальшивый трафик, имитировать поток посетителей или привести людей на свой собственный сайт. Обе схемы атак опираются на обширные независимые компьютерные программы — боты (сокращение от «роботы»).

Что такое спам-боты?

Компьютерные программы, которые автоматически выполняют повторяющиеся задачи, являются большой частью Всемирной паутины, какой мы ее знаем сегодня. Поисковые системы, такие как Google или Bing, используют подобные программы для поиска в Интернете и индексации нужных сайтов. Эти программы известны как веб-краулеры или поисковые боты.

Но хакеры также используют ботов для автоматизации своей деятельности в Интернете. В отличие от краулеров поисковых систем, в центре их внимания не интересы пользователей, вместо этого эти программы используются в спам-атаках для…

  • автоматизировать клики по рекламным объявлениям (Click fraud)
  • сбора адресов электронной почты (Email-Harvesting)
  • создания автоматически генерируемых учетных записей пользователей
  • Распространения рекламы в виде автоматически генерируемых комментариев
  • Распространять вредоносное программное обеспечение

Реферальный спам также обычно поддерживается ботами. Существует два класса спам-ботов:

  • Программы, имитирующие посещение веб-сайтов: этот тип спам-ботов имитирует обычные веб-браузеры, такие как Chrome, Firefox или Safari, и отправляет массу HTTP-запросов на выбранные веб-серверы. Эти программы похожи на краулеры операторов поисковых систем, которые иногда маскируются под веб-браузеры. Поскольку эти программы имитируют поведение человека на сайте, этот тип атаки называется crawling spam. Последствия ползучего спама видны в файле журнала сервера. Это называется спамом лог-файла.
  • Программы, подделывающие данные о трафике: спам-боты этого типа имитируют данные о трафике с других сайтов и передают их на серверы известных инструментов веб-аналитики. Подобные шаблоны атак позволяют манипулировать веб-статистикой, не взаимодействуя с целевой страницей. Этот шаблон атаки не отображается в лог-файле сервера, он появляется только в отчетах программного обеспечения для анализа. Это известно как спам-призрак.

Мы подробно рассмотрим обе схемы атак и представим контрмеры, которые можно предпринять.

Краулер-спам

Большинство веб-серверов имеют центральный файл журнала (журнал доступа), в котором каждый раз, когда к нему обращаются, записывается в хронологическом порядке с отметками времени. В следующем примере показана запись журнала доступа сервера Apache в формате комбинированного журнала:

127.0.0.1 — frank [10/Oct/2000:13:55:36 -0700] «GET /apache_pb.gif HTTP/1.0» 200 2326 «http://www.example.com/start.html» «Mozilla/4.08 [en] (Win98; I ;Nav)».

Запись содержит следующую информацию:

Информация Пример
IP-адрес запрашивающего узла 127.0.0.1
Имя пользователя для HTTP-аутентификации frank
Метка времени [10/Oct/2000:13:55:36 -0700]
HTTP запрос GET /apache_pb.gif HTTP/1.0
Код состояния HTTP 200
Размер файла 2326
Ссылка [sic] http://www.example.com/start.html
Пользовательский агент Mozilla/4.08 [en] (Win98; I ;Nav)

Хакеры используют автоматическое протоколирование через лог-файл для внедрения собственного URL в серверные протоколы выбранных веб-сайтов путем массовой рассылки HTTP-запросов. На переднем плане вы можете видеть поле referer [sic] HTTP-запроса. Оно включает URL-адрес ссылающегося веб-сайта.

Обратите внимание на

из-за орфографической ошибки в спецификации HTTP для соответствующего поля в заголовке HTTP установлено написание ‘referer’. В других стандартах используется правильное написание с двойной «r».

Если пользователь Интернета нажмет на одну из гиперссылок, он будет перенаправлен с текущей веб-страницы на указанную в ссылке целевую страницу. Ссылка содержит URL-адрес веб-сайта, на котором находится ссылка. Благодаря анализу лог-файла оператор целевой страницы может узнать, какие веб-сайты ссылаются на его проект, и определить потенциальные источники трафика.

В прошлом блоггеры обычно публиковали информацию о реферере из лог-файла в виджете на своем сайте, чтобы показать, откуда пришли посетители. Обычно это было в виде ссылки на источник трафика. Хакеры использовали эту практику как возможность манипулировать лог-файлами блогов и других сайтов, чтобы расположить свои собственные веб-проекты как можно выше в публичных списках ссылок, генерируя таким образом обратные ссылки и просмотры страниц.

Даже сегодня используются специальные спам-боты, которые массово запрашивают целевые страницы и передают на серверы URL сайта (видимость которого необходимо усилить). Однако количество подобных спам-атак резко сократилось. Одной из причин этого является то, что автоматически генерируемые списки рефереров на веб-сайтах сегодня встречаются редко. Это зависит от того, были ли внесены существенные изменения в алгоритм ранжирования Google. После обновления Penguin в апреле 2012 года Google стал более пристально следить за веб-спамом, когда речь идет об обратных ссылках. Чрезмерно оптимизированные веб-проекты теперь подвергаются штрафам. Примером может служить ситуация, когда сайты имеют много обратных ссылок из нерелевантных источников, списков ссылок и сетей, каталогов статей или комментариев в блогах.
Анализ журнальных файлов в настоящее время редко проводится вручную. Вместо этого используются такие инструменты, как Webalizer, AWStats или Piwik. Кроме того, программы веб-аналитики, такие как Google Analytics, способны оценивать данные о трафике без доступа к лог-файлам сервера, но они не менее уязвимы для гусеничного или призрачного спама.

Идентификация гусеничного спама

В следующем разделе мы покажем на примере, как использовать Google Analytics для распознавания гусеничного спама в проекте вашего сайта и как отфильтровать подозрительные рефереры.

1. Откройте аккаунт Google Analytics: Откройте аккаунт Google Analytics вашего веб-проекта.

Примечание

Все скриншоты из веб-обзора Google Analytics сделаны в аккаунте Google, который поставщик предлагает в качестве демонстрационного. Ссылку на аккаунт можно найти на странице справки Google Analytics. Для доступа требуется бесплатная учетная запись Google.

2. Получение статистики по рефералам: Выберите «Приобретение» в боковом меню и нажмите «Весь трафик», затем «Рефералы».

3. Настройте период просмотра: Настройте период просмотра отчета так, чтобы он показывал последние три месяца.

4. Упорядочить/фильтровать статистику по рефералам: В разделе «Приобретение» > «Весь трафик» > «Рефералы» Google Analytics отображает все источники входящих ссылок на ваш сайт в сводном отчете. Это дает вам список всех URL-адресов рефералов, зарегистрированных Google Analytics за выбранный период просмотра, а также соответствующие цифры, которые можно присвоить этим URL-адресам.

Для каждого реферала Google Analytics сообщает о количестве пользователей и сессий, сгенерированных по этой ссылке. Кроме того, из статистики можно узнать средний показатель отказов, количество страниц, просмотренных за сеанс, среднюю продолжительность сеанса, а также коэффициенты конверсии, транзакций и доходов.

Когда речь идет о предотвращении спама, важны количество сеансов для каждого реферального источника, а также средний показатель отказов.

В разделе «Поведение» вы увидите «Показатель отказов», а если вы нажмете на проценты, то сможете изменить способ их отображения.

Показатель отказов — это процент, который говорит вам о том, сколько просмотров страниц пришло из источника без взаимодействия с вашим сайтом. Показатель отказов 100 или 0% для более чем 10 сеансов, пришедших из одного и того же источника, является явным признаком того, что это автоматические запросы.

Кроме того, вы можете использовать «регулярные выражения» (RegEx) для фильтрации просмотра на предмет известных спам-рефералов. К ним относятся, например, следующие сайты:

  • semalt.com
  • darodar.com
  • hulfingtonpost.com
  • buttons-for-website.com
  • best-seo-solution.com
  • free-share-buttons.com
Совет

Голландское цифровое агентство Stijlbreuk предоставило обширный черный список реферального спама на сайте referrerspamblocker.com.

Соответствующий шаблон фильтра может выглядеть, например, следующим образом:

semalt|darodar|hulfingtonpost|buttons-for-website|best-seo-solution

Труба (|) означает «или». Метасимволы, такие как периоды (.), должны быть замаскированы с помощью предопределенного обратного слеша ().

Чтобы использовать фильтр, нажмите на «Дополнительно» в строке меню, которая находится над таблицей.

Отобразится маска фильтра.

Создайте инклюзивный фильтр для источника и выберите ‘Matching RegExp’ в выпадающем меню под названием ‘Containing’. Вставьте любое регулярное выражение в качестве шаблона фильтра. Подтвердите процесс фильтрации, нажав на кнопку «Применить».

5. Отмечайте подозрительных рефералов: Создайте черный список реферального спама, в который вы сможете заносить все подозрительные URL-адреса источников. Позже вы сможете использовать этот список в качестве основы для фильтра исключений.

Блокирование гусеничного спама с помощью .htaccess

Гусеничный спам требует посещения вашего сайта для того, чтобы быть успешным. Надежные контрмеры могут быть инициированы на стороне сервера. Мы покажем вам, как это сделать с помощью конфигурационного файла .htaccess самого используемого в мире веб-сервера Apache.

Если вы заметили подозрительные URL-адреса в статистике рефералов, можно использовать следующие процедуры для предотвращения доступа спам-ботов к веб-страницам:

  • Блокировать рефералов
  • Блокировать IP-адреса
  • Блокировать агенты пользователя

Блокирование рефералов с помощью .htaccess

Чтобы заблокировать выбранные URL-адреса рефералов, откройте файлы .htaccess вашего веб-сервера и добавьте следующий раздел кода:

RewriteEngine on
  RewriteCond %{HTTP_REFERER} ^https?://([^.]+.)*semalt.com [NC,OR]
  RewriteCond %{HTTP_REFERER} ^https?://([^.]+.)*darodar.com [NC,OR]
  RewriteCond %{HTTP_REFERER} ^https?://([^.]+.)*hulfingtonpost.com [NC,OR]
  RewriteCond %{HTTP_REFERER} ^https?://([^.]+.)*buttons-for-website.com [NC,OR]
  RewriteCond %{HTTP_REFERER} ^https?://([^.]+.)*best-seo-solution.com [NC,OR]
  RewriteCond %{HTTP_REFERER} ^https?://([^.]+.)*free-share-buttons.com [NC]
RewriteRule .* - [F]
  

Защита от спама на стороне сервера основана на правиле RewriteRule: 

.* - [F]

Оно предписывает веб-серверу отвечать на все входящие HTTP-запросы с кодом состояния 403 Forbidden при выполнении одного или нескольких условий (RewriteCond). Таким образом, доступ спам-ботов становится невозможным.

В данном примере каждое направление, которое должно быть заблокировано, определяется в отдельном RewriteCond как регулярное выражение, как показано в следующем примере:

RewriteCond %{HTTP_REFERER} ^https?://([^.]+.)*semalt.com [NC,OR]

Условие считается выполненным, если серверная переменная %{HTTP_REFERER} соответствует регулярному выражению, определенному в RewriteCond — например:

^https?://([^.]+.)*semalt.com 

Отдельные условия связаны между собой флагом [OR] в смысле логического или. Поэтому для использования правила RewriteRule должно быть выполнено только условие RewriteCond. Флаг [NC] определяет предыдущую строку как не чувствительную к регистру.

В качестве альтернативы вы можете определить определенные ключевые слова в RewriteCond, которые будут исключены, если они появятся в направлении HTTP-запроса. Следующий пример блокирует все HTTP-запросы, в рефералах которых встречается одно из ключевых слов: porn, pill, или poker.

Ключевые слова должны быть представлены с границами слов с помощью RegEx. Для этого используйте мета-символ b.

RewriteEngine on
RewriteCond %{HTTP_REFERER} bpornb [NC,OR]
RewriteCond %{HTTP_REFERER} bpillb [NC,OR]
RewriteCond %{HTTP_REFERER} bpokerb [NC]
RewriteRule .* - [F]

Исключение ключевых слов с границами слов имеет свои недостатки. HTTP-запросы будут заблокированы, даже если комбинации букв, определенные в RewriteCond, используются, однако, в совершенно невинном контексте. Такими примерами HTTP-запросов могут быть следующие сайты:

www.foodporn.com/

www.drink-overs

pill.com/

Блокирование IP-адресов с помощью .htaccess

Вы обнаружили, что спам-атаки продолжают поступать с одних и тех же интернет-адресов? В этом случае хорошей идеей будет запретить соответствующие IP-адреса или весь диапазон адресов с помощью .htaccess.

Если вы хотите заблокировать только один IP-адрес на стороне сервера, вставьте блок кода в ваш файл .htaccess, как показано в следующем примере:

RewriteEngine On
Order Deny,Allow
Deny from 203.0.113.100
Allow from all

Все HTTP-запросы, исходящие с IP-адреса 203.0.113.100, будут автоматически отклонены в будущем. Подобный блок кода может содержать любое количество IP-адресов. Перечислите их следующим образом:

RewriteEngine On
Order Deny,Allow
Deny from 203.0.113.100
Deny from 192.168.0.23
Allow from all

Если вы хотите заблокировать доступ к вашему сайту целому диапазону адресов, запишите его в формате CIDA (Classless Inter-Domain Routing) следующим образом:

RewriteEngine On
Order Deny,Allow
Deny from 198.51.100.0/24
Allow from all

Все запросы с IP-адресов 198.51.100.0 — 198.51.100.255 будут заблокированы.

Примите во внимание: Хакеры обычно используют ботнеты для запроса целевых страниц за очень короткое время через множество различных IP-адресов. Это делает практически невозможным на практике предотвратить доступ спама с помощью блокировки IP-адресов.

Информация

Ботнет — это сеть зараженных компьютеров (так называемых зомби ПК), которая используется в качестве основы для спам-атак или для рассылки вредоносных программ. Чтобы создать такую сеть, хакеры (так называемые бот-мастера) используют свои компьютеры для внедрения вредоносных программ через Интернет на компьютеры, которые не защищены должным образом. Затем они используют ресурсы сети для проведения атак на других пользователей Интернета. Ботнеты обычно управляются централизованно и являются отправной точкой для массовых волн спама и масштабных DDOS-атак.

Блокируйте пользовательские агенты с помощью .htaccess

Еще одним способом предотвращения спам-атак является блокирование определенных пользовательских агентов, которые используются спам-ботами, чтобы выдавать себя за законных посетителей.

Для этого вы создаете код следующим образом:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Baiduspider [NC]
RewriteRule .* – [F,L]

В прошлом операторы сайтов неоднократно фиксировали попытки доступа, предпринятые спам-ботами, которые выдавали себя за поисковые боты китайской поисковой системы Baidu (Baiduspider). Если вы не ожидаете, что на ваш сайт придет трафик из Китая, вы можете смело блокировать этот краулер, чтобы предотвратить спам-атаки.

Google-Analytics-Filter

Предотвращение спама на стороне сервера с помощью .htaccess является наиболее надежным способом предотвращения спама от краулеров. Однако адаптация .htaccess сложна и чревата ошибками. Не каждый оператор сайта осмелится сформулировать свои собственные правила перезаписи. И это неспроста, поскольку любые ошибки могут серьезно повлиять на доступность сайта. В качестве альтернативы можно отфильтровать автоматические спам-боты из статистики используемой программы анализа, что позволит избежать неточных отчетов. На примере Google Analytics мы покажем, как это работает.

Google Analytics предлагает вам два варианта фильтрации реферального спама из просмотра.

  • Черный список реферального спама Google
  • Пользовательские фильтры

Следующее видео на YouTube является частью курса «Основы цифровой аналитики» Академии Аналитики и предлагает введение в функцию фильтров Google Analytics:

В целях защиты вашей конфиденциальности видео не будет загружаться, пока вы не нажмете на него.

Черный список Google по спаму рефералов

Google также признал проблему реферального спама при оценке статистики пользователей. Поэтому все известные боты и пауки могут быть отфильтрованы автоматически. Для этого выполните следующие действия:

1. Откройте настройки представления: Откройте свой аккаунт Google Analytics и нажмите кнопку ‘Admin’ в меню слева. Затем выберите ‘Настройки представления’.

2. Включите черный список спама Google: прокрутите вниз до раздела «Фильтрация ботов» и установите флажок «Исключить все посещения от известных ботов и пауков».

Теперь Google покажет вам очищенную версию статистики вашего сайта.

Примите во внимание: Отфильтровываются только те пользовательские данные, которые инструмент распознает как спам. Фильтр относится только к ботам и паукам, занесенным в черный список спама Google.

Пользовательский фильтр

Google Analytics также позволяет определять фильтры на уровне аккаунта или на уровне дисплея. Фильтры, определенные на уровне аккаунта, могут быть применены к одному или нескольким наборам данных по мере необходимости. Если фильтр создается на уровне отображения, он действует только для выбранного представления.

Вы должны протестировать вновь созданные фильтры, применив их к копии нужного представления. Выполните следующие действия.

1. Создайте копию представления: Нажмите на ‘Admin’, затем в разделе ‘View’ нажмите на ‘View Settings’ и скопируйте представление.

Назовите копию по своему усмотрению и подтвердите процесс, нажав кнопку копирования.

2. Определите пользовательский фильтр: Выберите ‘Admin’ > ‘View’, затем выберите только что созданную копию и нажмите на пункт меню ‘Filters’.

Если вы уже создали фильтры для этого представления, Google Analytics покажет их в обзоре.

Чтобы создать новый пользовательский фильтр, нажмите на «Создать новый фильтр», затем дайте ему имя, например, «Блокировка спама для рефералов».

В разделе ‘Информация о фильтре’ выберите следующие параметры:

  • Тип фильтра: ‘Пользовательский’
  • Исключить».
  • Поле фильтра: ‘Источник кампании’
Примечание

Имя поля ‘Campaign Source’ определяет размер источника для отчетов Google Analytics.

Теперь вы можете задать шаблон фильтра в виде регулярного выражения. Используйте ранее созданный вами черный список спама рефереров. Подобный шаблон фильтра может быть следующим:

(?:([^. ]+).)?(?:([^.]+).)?(semalt|hulfingtonpost|buttons-for-website|best-seo-solution).(com|de|net|org|ru)

3. Проверьте фильтр: Можно проверить, как фильтр влияет на текущее представление.

Примечание .

Проверка работает только в том случае, если выбранное представление содержит достаточно данных.

Нажмите на кнопку сохранить, чтобы завершить настройку фильтра. Вновь созданный фильтр исключений отображается в обзоре.

4. Примените фильтры к основному представлению: Если ваш пользовательский фильтр работает так, как нужно, примените его к основному представлению вашего аккаунта Google Analytics.

Примечание

Фильтры данных — это отличный способ очистить ваши аналитические отчеты от реферального спама. Имейте в виду, что опция фильтра Google Analytics только скрывает трафик, вызванный ботами. Она не решает реальную проблему перегрузки вашего сервера спам-атаками. Устойчивая профилактика спама должна осуществляться с помощью мер на стороне сервера, которые не позволяют спам-ботам получить доступ к веб-сайтам.

Блокировка спама по реферерам с помощью плагина WordPress

Операторы WordPress могут защитить свой сайт от реферального спама с помощью плагинов. Соответствующее программное обеспечение сторонних разработчиков доступно бесплатно на сайте WordPress.

Наиболее популярными плагинами WordPress для защиты от реферального спама с регулярными обновлениями являются:

  • Block Referer Spam от supersoju, codestic
  • Stop Referrer Spam от Krzysztof Wielogórski
  • Черный список спама рефералов WP от Rolands Umbrovskis

Чтобы проиллюстрировать, как установить и настроить плагины WordPress для предотвращения реферального спама, мы будем использовать Block Referrer Spam в качестве примера.

Установка плагина для борьбы со спамом рефералов

Система управления контентом WordPress предлагает вам возможность управлять плагинами непосредственно через административную область программы. Ниже описано, как это сделать:

1. Откройте административную область WordPress: Чтобы включить плагин referrer spam, войдите в административную область вашего сайта WordPress.

2. Найдите плагин и установите его: Выберите ‘Установить’ в меню плагинов, чтобы добавить дополнительные плагины на вашу страницу WordPress.

Введите ‘Block Referer Spam’ в строке поиска и нажмите ‘Install’, чтобы интегрировать плагин на свой сайт.

Изначально плагин будет деактивирован в вашем списке плагинов.

3. Активируйте плагин: Запустите Block Referer Spam, нажав на кнопку ‘Activate’. 

Новый пункт меню, ‘Referer Spam’, появится в боковой панели области администрирования WordPress.

Настройте плагин для блокировки спама ссылок

В области конфигурации ‘Block Referer Spam’ вы найдете краткое описание плагина, а также различные опции для обновления и блокировки функций.

1. Откройте область конфигурации: Нажмите на пункт меню ‘Referer Spam’, чтобы настроить плагин.

2. Запланируйте план обновлений: Выберите предпочтительный вариант обновления программного обеспечения: автоматическое или ручное.

Совет

Выберите опцию автоматического обновления, чтобы черный список плагина постоянно пополнялся новыми спам-адресами по мере их обнаружения.

3. Настройте режим блокировки: Выберите режим блокировки, который вы предпочитаете. Плагин предлагает блокировку перезаписи и блокировку WordPress.

Совет

Выберите блокировку перезаписи, если это возможно, чтобы быстро и эффективно предотвратить доступ спама на уровне веб-сервера.

4. Настройте пользовательский черный список спама по реферерам: Для эффективного предотвращения спама вы можете вручную расширить черный список плагина. Для этого введите известные веб-сайты в поле, расположенное в разделе ‘Пользовательские блоки’.

Сохраните свои настройки, нажав на кнопку ‘Сохранить изменения’.

Доступ к полному черному списку спама рефералов плагина можно получить через пункт меню «Все заблокированные сайты».

Призрачный спам

В отличие от гусеничного спама, спам Ghost делает свою работу, не взаимодействуя с целевым сайтом. Вместо этого он использует протокол Analytics Measurement Protocol, который позволяет людям отправлять данные непосредственно в Google Analytics и добавлять через него вредоносную информацию. Этот поддельный трафик смешивается с реальными пользовательскими данными и отображается оператору сайта в виде отчетов. Поскольку в ходе такой атаки сайт фактически не посещается, ей дали название «призрачный спам».

Цель атак спама-призрака — привлечь внимание операторов сайта. Хакеры полагаются на любопытство своих жертв. Идея заключается в том, что чем чаще ваш собственный URL появляется в аналитических отчетах других сайтов, тем выше шанс, что оператор кликнет на него, чтобы посмотреть, откуда берется весь этот дополнительный трафик. То, что скрывается за URL-адресами рефереров, обычно является веб-сайтами с отображаемой рекламой, на которой они и зарабатывают свои деньги. В худшем случае операторы этих спам-сайтов используют реферальный спам для заражения компьютеров вредоносным ПО.

На примере Google Analytics мы покажем вам, как работает спам-призрак и что вы можете сделать, чтобы предотвратить этот вид спама.

Как работает призрачный спам?

Когда речь идет о призрачном спаме, хакеры используют протокол измерения Google Analytics. Это позволяет передавать данные о трафике между вашим сайтом и веб-сервером инструмента анализа.

Все, что нужно хакерам для подброса данных в Google Analytics, — это действующие идентификаторы отслеживания. Этого можно добиться двумя способами:

  • Хакеры используют спам-ботов для просмотра HTML-кода веб-сайтов и считывания идентификаторов.
  • Идентификаторы отслеживания создаются случайным образом с помощью генератора.

Многие операторы сайтов интегрируют код отслеживания Google Analytics непосредственно в HTML-код своего сайта. Используется следующий фрагмент кода:

<!-- Google Analytics -->
<script>
window.ga=window.ga||function(){(ga.q=ga.q||[]).push(arguments)};ga.l=+new Date;
ga('create', 'UA-XXXXX-Y', 'auto');
ga('send', 'pageview');
</script>
<script async src='https://www.google-analytics.com/analytics.js'></script>
<!-- End Google Analytics -->

Для того чтобы скрипт передавал данные в Google Analytics, место UA-XXXXX-Y должно быть заменено на индивидуальный идентификатор отслеживания соответствующего пользователя. Это доступно любой программе, которая считывает HTML-код соответствующим образом подготовленных веб-сайтов.

Чтобы устранить эти пробелы в безопасности, используйте Google Tag Manager. Он предоставляет операторам сайтов пользовательский интерфейс, позволяющий централизованно управлять фрагментами кода Google (известными как теги). Вместо различных тегов для разных служб Google в HTML-код встраивается только один фрагмент кода для Google Tag Manager. Код отслеживания для Google Analytics (включая индивидуальный идентификатор) защищен от любых попыток доступа третьих лиц.

Призрачный спам может повлиять на любой отчет Google Analytics. Помимо информации о реферере, хакеры используют отчеты о главных событиях, ключевых словах, целевых страницах или языковых настройках для подбрасывания манипулируемых данных о трафике.

Россиянин Виталий Попов добился больших успехов в области призрачного спама. С 2014 года хакеру удавалось внедрять URL-адреса собственных сайтов в аккаунты Google Analytics. В конце 2016 года хакер одурачил сетевое сообщество с помощью якобы секретной страницы Google. Помимо классических аббревиатур типа en-us, fr, es и т.д. тысячи пользователей Analytics обнаружили в своих языковых настройках следующие сообщения:

‘Secret.ɢoogle.com Вы приглашены! Вход только по этому URL-адресу билета. Скопируйте его. Голосуйте за Трампа!».

Но любопытные операторы сайтов, которые последовали приглашению, не попали на сайт Google. Это произошло потому, что:

ɢoogle.com ≠ Google.com

перенаправлял посетителей на сайт Попова, URL которого содержал почти весь текст хита Pink Floyd Money с альбома 1973 года The Dark Side of the Moon.

Деньги. уходят. на. хорошую. работу. с. большей. зарплатой. и. ты. в. порядке. деньги. это. газ. хватай. эти. деньги. обеими. руками. и. делай. заначку. новая. машина. икра. четыре. звезды. дневная. мечта. думай. я. куплю. себе. футбольную. команду. деньги. возвращаются. я. в. порядке. jack.ilovevitaly.com

URL-адрес приводил посетителей на сайт в стиле веб-каталога начала 2000-х годов со ссылками на различные поисковые системы и интернет-магазины. Сегодня этот URL никуда не ведет. Мотивы спамерских атак Попова неясны. Возможно, хакер просто пытался проверить обманчивый потенциал URL-адреса ɢoogle.com.

Резюме: Призрачный спам раздражает, но он не представляет угрозы для вашего сайта. Фальшивый трафик не приводит к реальным посещениям сайта, и ни ваш сервер, ни файлы журналов не нагружаются этими автоматическими запросами. Однако призрачный спам может стать проблемой, если вы хотите проанализировать статистику сайта через Google Analytics.

Примечание

Избегайте щелкать на незнакомых реферерах в веб-браузере. В противном случае ваша система может быть заражена вредоносным программным обеспечением из ссылки-цели.

Определение призрачного спама

Призрачный спам обычно основан на случайно сгенерированных идентификаторах отслеживания. Спам-бот не знает, какой сайт подвергся атаке. Это отражается в несоответствиях в данных Google Analytics.

Если легитимный пользователь пытается зайти на ваш сайт по ссылке, в заголовке запроса в поле HTTP ‘host’ будет содержаться имя хоста, которое можно отнести к вашей сети.

Однако боты, посылающие поддельный трафик, не знают таких имен хостов и заполняют поле host случайно выбранным заполнителем. В качестве альтернативы поле остается пустым, и Google Analytics записывает хост как ‘(не задан)’.

Используйте эту схему для выявления спама-призрака в своем аккаунте Google Analytics. Рекомендуется следующая процедура:

1. Зайдите в отчет о сети: Перейдите в раздел ‘Аудитория’ > ‘Технология’, затем нажмите на ‘Сеть’ и, наконец, выберите ‘Имя хоста’ в разделе основного измерения.

2. Установите период наблюдения: Установите период наблюдения на последние три месяца.

3. Определите законные имена хостов: В первой колонке отчета Google Analytics покажет вам все имена хостов, т.е. веб-сайты, с которых пришли ваши посетители. Вы должны увидеть имена, которые можно отнести к доменам, через которые доступен ваш сайт. Кроме того, вы найдете домены Google, которые отвечают за переводы и веб-кэш-версии вашего сайта.

translate.googleusercontent.com

webcache.googleusercontent.com

Если в сетевом отчете вы найдете другие имена компьютеров, которые не соответствуют вашим доменам или страницам поддержки Google, это будет призрачный спам.

4. Создайте регулярные выражения: Запишите все имена хостов (для которых вы хотите оценить данные о трафике) в виде регулярного выражения. Например:

^(www.)?(example|googleusercontent).com

Это выражение понадобится вам позже в качестве шаблона фильтра. Убедитесь, что регулярное выражение включает все имена хостов, трафик которых вы хотите проанализировать через Google Analytics.

Заключение

Спам-призрак можно распознать по тому, что хост, указанный в HTTP-запросе, не совпадает с хостом в вашей сети.

Фильтрация призрачного спама

Чтобы отфильтровать спам-призрак в своем аккаунте Google Analytics, просто отфильтруйте все имена хостов, которые не являются частью вашей сети. Для этого воспользуйтесь отображением данных:

1. Выберите копию отображения данных: В области администратора вашего аккаунта Google Analytics вы можете создать копию отображения данных или просто выбрать копию, которую вы сделали ранее.

2. Определите фильтр: Выберите пункт меню «Фильтр» и создайте новый фильтр, которому вы можете дать дополнительное имя, например, «Блокировка имени хоста».

В разделе ‘Информация о фильтре’ убедитесь, что выбраны следующие параметры: 

  • Тип фильтра: ‘Пользовательский’
  • ‘Включить’
  • Поле фильтра: ‘Имя хоста’

3. Проверить фильтр: Нажмите кнопку ‘Проверить фильтр’, чтобы проверить, как ваш фильтр влияет на выбранное отображение, затем нажмите кнопку ‘Сохранить’.

4. Применить фильтр к основному дисплею: если ваш фильтр работает так, как нужно, перенесите его на основной дисплей данных.

Теперь все данные пользователя, передаваемые через призрачный спам, должны быть скрыты. Теперь ничто не стоит на вашем пути, когда дело доходит до оценки посещаемости вашего сайта.

Оцените статью
cdelat.ru
Добавить комментарий