Как исключить спам в Google ***ytics, или Кто портит ваши данные
Что делать, если вы столкнулись со спамом в отчетах Google ***ytics? Значит ли это, что кто-то имеет доступ к вашему аккаунту, или что кто-то специально влияет на данные сайта в GA? Как они это делают? И как исключить подобные данные из отчетов?
Когда в источниках реферального трафика появляются нетематические ресурсы, или когда вы открываете «Поведение → События → Обзор», и видите событие, которое точно не настраивали самостоятельно, самое время разобраться, в чем же тут дело. Спам в событиях от event-tracking.com
Зачем спамить в Google ***ytics?
Google ***ytics — самый популярный инструмент веб-аналитики, его используют миллионы пользователей. Спамеры рассчитывают на переходы любопытных владельцев сайтов, а что уже делать с этими переходами — монетизировать через баннеры, перенаправлять в магазин или использовать любым другим способом — каждый решает сам. Даже если принять процент любопытства за 10%, в соотношении с миллионами пользователей Google ***ytics это получится значительная цифра.
Как они это делают? Метод спама Google ***ytics #1: Ghost spam
Ghost spam (спам-призpaк) называется призpaком, потому что отправляет данные в GA без взаимодействия с сайтом напрямую.
Как же данные попадают в Google ***ytics? GA использует протокол для передачи данных — Measurement Protocol, который позволяет разработчикам отправлять данные напрямую на сервера Google ***ytics. Measurement Protocol сам по себе — хорошая вещь, он позволяет использовать возможности Google ***ytics для сбора данных пpaктически из любой среды. Таким образом, становится возможным использовать инструменты аналитики GA, к примеру, в сети магазинов розничной торговли. Данные по продажам или любым другим взаимодействиям с покупателями магазинов будут собраны в Google ***ytics подобно данным с веб-сайтов. Однако, тот же Measurement Protocol можно использовать и для передачи спама.
Для доступа к аккаунту GA достаточно знать ID аккаунта. Спамерам ничего не нужно узнавать — ID можно генерировать автоматически в больших количествах. Остальное они вводят сами — рефералов, страницы, имена хостов, ключевые слова и так далее. Автоматизированный скрипт отправляет ложные данные в разные аккаунты GA.
Так как непосредственного взаимодействия с сайтом нет, то нельзя отсечь спамные данные на уровне сервера, используя .htaccess. Данные можно исключить из отчетов только с помощью фильтров Google ***ytics.
Пример Ghost spam: спам в событиях GA от www.event-tracking.com
Вы, конечно же, знаете, какие именно события настроены на сайте, и что хотите отслеживать. Поэтому идентифицировать спам в событиях очень просто. Если в событиях вы обнаружили чужое сообщение, к примеру, «to use this feature visit: www.event-tracking.com» — это спам. Чтобы отсеять ложные данные по несуществующему событию, нужно настроить отдельный фильтр — подробные инструкции, как это сделать, смотрите в конце поста.
Метод спама Google ***ytics #2: Crawler Referrer Spam
Есть роботы, которые совершают обход сайтов с целью привлечь трафик на определенный портал. Данные, которые такие роботы оставляют в Google ***ytics, не несут никакой полезной информации, а сфабрикованные показатели искажают статистику. Такие роботы игнорируют директивы robots.txt, поэтому блокировать их там нет смысла. Хорошая новость в том, что здесь есть обращение к сайту. Это значит, что можно заблокировать робота-спамера не только в настройках Google ***ytics, но и в .htaccess на уровне сервера.
Как определить реферальный спам в отчетах?
Зайдите в свой аккаунт Google ***ytics, вкладка «Отчеты», «Источники трафика → Весь трафик → Рефералы». К отчету добавьте дополнительный параметр «Поведение → “Имя хоста”» и отсортируйте по имени хоста. Увидите много интересного :) Поиск реферального спама в отчетах Если рефералов много, для удобства работы лучше выгрузить все данные в таблицу, и там отобрать те источники, которые необходимо исключить. Экспорт данных из Google ***ytics
Какие параметры нужно проанализировать для идентификации спамера?
- Источник — неестественный или нетематический адрес сайта говорит сам за себя.
- Новые сеансы и Показатель отказов — в первую очередь обратите внимание на значения 0% или 100%.
- Имя хоста — набор символов или «not set».
- Дублирование значений в дополнительных параметрах. В нашем случае — данные для «Имя хоста» и «Название экрана» для сайтов erot.co, sanjosestartups.com, непереводимая.рф и так далее частично или полностью совпадают.
Сравнение данных имени хоста и названия экрана для одинаковых источников.
5. Списки спамеров Google ***ytics в сети. Если мишенями спамеров становится большое количество людей, то и списки спам-роботов будут совпадать. Понимая это, Вы можете отсеять часть спама заранее. Настройте фильтр по чужому списку спамеров — пример такого списка находится здесь. Или сделайте общий список спамеров для нескольких SEO-проектов и примените к каждому сайту по отдельности.
Как исключить реферальный спам: фильтры Google ***ytics
Как мы уже писали выше, оба вида спама — Ghost spam и Crawler Referrer Spam — можно исключить из отчетов внутренними инструментами GA, настроив соответствующие фильтры.
Важно! Не применяйте фильтры к основному представлению Google ***ytics, иначе часть данных для вашего сайта не будет собрана. Для фильтрации данных используйте имеющееся дополнительное представление или создайте его (подробнее).
Фильтр по источнику кампании
Любые метрики Google ***ytics — количество переходов, длительность сессий, события и все остальное — имеют источник. Чтобы исключить их из отчета, внесите URL определенного сайта как источника кампании в фильтр представления с настройкой «Исключить». В дальнейшем все данные из этого источника не будут добавлены к отчету. Как настроить фильтр:
- Войдите в аккаунт Google ***ytics.
- Перейдите на вкладку «Администратор».
- Выберите представление, к которому будет применен фильтр. Основное представление не нужно трогать :)
4. В меню сразу под выбранным представлением выберите «Фильтры». 5. Кликните «Фильтры» → «Новый фильтр». 6. Заполните поля, как показано на скринах ниже. Настройка антиспам фильтра по источнику кампании. 7. Сохраните фильтр. Такой фильтр исключит все данные, которые приходят из указанного источника, в том числе и спам в разделе «События».
Фильтр по имени хоста или по любому другому параметру
Как настроить фильтр: пункты 1-5 те же — перейдите на вкладку «Администратор», выберите представление и откройте вкладку создания нового фильтра. Далее так же заполняем фильтр, только вместо «Источник кампании» выбираем «Имя хоста».
Аналогичным образом можно отфильтровать спамные данные и по другим параметрам. Главное, определить параметр, который однозначно определит нежелательный источник.
Важно! Обязательно проверяйте фильтр перед применением. К примеру, вы можете указать адрес сайта, имя хоста которого нужно исключить. Предположим, что для сайта в качестве имени хоста указан домен вашего ресурса. Но этот домен автоматически указывается в имени хоста и для всех естественных рефералов. Таким образом, если вы примените «не глядя» этот фильтр, данные из естественных источников также будут исключены.
Исключение обращений роботов
Исключить Crawler Referrer Spam можно в настройках представления. Последовательность та же:
- Войдите в аккаунт Google ***ytics.
- Перейдите на вкладку «Администратор».
- Выберите представление.
- Войдите в «Настройки представления».
Как настроить представление Google ***ytics 5. Отметьте пункт «Исключение обращений роботов и пауков». Исключение обращений роботов из данных представления Google ***ytics Теперь Google ***ytics на основании собственного алгоритма будет определять обращения роботов и отсеивать их.
А нужно ли заморачиваться?
Мы решили поинтересоваться у Middle SEO специалиста агентства Netpeak Алексея Данилина о том, как он фильтрует данные по своим проектам. По мнению Алексея, все зависит от ситуации. Прежде чем тратить время на отслеживание спамеров и настройку фильтров, стоит оценить, нужно ли это конкретному проекту. Если спам составляет незначительную часть всей аналитики, или если вам важно отследить отдельную тенденцию среди пользователей (например, распределение мобильных и десктоп посещений) — можно отфильтровать данные, просмотрев это соотношение только для посетителей из органического поиска, или для всех посещений, кроме реферального трафика.
Чтобы избежать пyтaницы в событиях, можно заранее отнести каждое настроенное событие к отдельной группе, при этом все возможные внешние события будут оставаться в общем списке и никак не попадут в какую-то из групп. Когда вы создаете отдельное представление, безусловно стоит отсеять из статистики обращения роботов и пауков. Настраивать ли дополнительно фильтры от спама — нужно смотреть для каждого проекта индивидуально.
Краткие выводы
Хорошие новости: полную картину по своему сайту видите только вы, никто не имеет доступа в ваш Google ***ytics. Плохие новости: отослать ложные данные в ваш GA можно пpaктически всегда. Определить ID — тоже. Хорошие новости: как правило, ID именно Вашего аккаунта никому не нужен. Чаще всего ложные данные попадают в GA после генерации случайных чисел и с целью рекламы другого ресурса. Больше хороших новостей: спам можно исключить из отчетов с помощью фильтров и настроек. Или, если он не мешает жить, можно просто не обращать на него внимания. Остались вопросы? Будем рады ответить на них в комментариях.
Комментарии:
Дайджест-путеводитель по серии постов о работе с редакторами электронных таблиц для PPC-специалистов....
07 06 2023 1:56:21
Менеджмент и лидерство: 4 разных типа руководства организацией и нескучные иллюстрации в стиле South park....
06 06 2023 22:46:52
Чем полезна вкладка Network в DevTools для SEO-специалиста...
05 06 2023 23:37:15
Расскажем про ошибки интернет-магазинов, которые трудно найти соответствующими программами и сервисами проверки...
04 06 2023 10:27:53
Как бизнес подстраивается под новые привычки покупателей в стиле фиджитал и O2O2O....
03 06 2023 2:14:15
Интерфейс прикладного программирования для работы с аккаунтами десятка сайтов....
02 06 2023 4:45:35
Seznam.cz — одна из пяти поисковых систем в мире, сумевших в отдельно взятой стране стать популярнее Google...
01 06 2023 11:26:23
Оставить заявку на горячей линии МОЗ — это только вершина айсберга. Необходимо провести опрос среди сотрудников компании. И не один. А ещё подготовить несколько помещений для вакцинации и отдыха. Узнать больше!...
31 05 2023 14:31:22
Как бесплатно пользоваться преимуществами, особенностями и дополнительными инструментами сервиса...
30 05 2023 21:37:23
FAQ (frequently asked questions), HowTo и Q&A (questions and answers)....
29 05 2023 13:13:33
Мы хотим найти и купить локальную комaнду SEO или PPC-специалистов. Как обычно, делаем предложение нестандартно — в блоге...
28 05 2023 4:16:25
Базовые знания, которые нужны, чтобы ресурс понравился поисковикам и пользователям....
27 05 2023 3:20:37
Как грамотно раскрутить пиццерию. Сняли фильтр и достигли хороших результатов....
26 05 2023 7:36:45
Как пользоваться «Совмещением данных» с учетом всех особенностей инструмента...
25 05 2023 11:59:33
Зеркалами считаются сайты с разными доменными именами, но идентичным контентом...
24 05 2023 1:32:29
Алексей Селезнев проанализировал, как дорого обходятся рекламодателям клики по объявлениям в 25 тематиках и 92 странах....
23 05 2023 4:53:12
Упущенная семантика — это ключевые фразы, которые успешно используют в SEO и PPC ваши основные конкуренты, но не используете вы. Как найти упущенную семантику? Читайте кейс сервиса Prodvigator....
22 05 2023 3:57:10
Почему популярность электромобилей растет и как это связан с продажей углеродных квот...
21 05 2023 22:32:48
Какую тактику выбрать, чтобы написать внятный доклад. Хедлайнеры интернет-маркетинговых конференций делятся опытом...
20 05 2023 1:16:31
Ошибки, которые допускают новички и теряют деньги, трафик, клиентов....
19 05 2023 9:25:29
Отслеживаем в статистике Google ***ytics посетителей пришедших через защищенное соединение в поиске Google....
18 05 2023 13:34:13
Представление — это уровень доступа в аккаунте Google ***ytics. На уровне представления можно предоставить или ограничить доступ пользователей к отчетам и аналитическим инструментам...
17 05 2023 1:11:33
На что обратить внимание при покупке интернет-ресурса, какие факторы влияют на цену и что помогает определить качество сайта? Ответы на все эти вопросы в статье. Читать!...
16 05 2023 20:38:28
Технологии решают, но не всегда....
15 05 2023 22:36:10
Как прокачать свои знания и навыки использования GA, чтобы оптимизировать сайт и получать больше (намного больше, чем сейчас) трафика, конверсий, вовлечения. Больше!...
14 05 2023 15:43:40
Рассказывайте о развитии фирмы, ее достижениях, масштабах деятельности — это то, что нужно вашим потенциальным клиентам. Так вы повысите их лояльность. Узнать больше!...
13 05 2023 3:45:24
Нужен ли вашему проекту редактор? Как правильно его выбрать и оценить на собеседовании, а затем и в процессе работы?...
12 05 2023 7:57:38
Как новичкам в ecommerce выбрать первую CMS. Преимущества и трудности работы для крупных и небольших интернет-магазинов, русскоязычные и мультиязычные, с активной техподдержкой и без нее. Узнать больше!...
11 05 2023 6:17:41
Flash онлайн объявлений в формат HTML5: нововведение гугл рекламы...
10 05 2023 22:57:16
Как получить больше конверсионного трафика из поиска и не выйти за рамки KPI? Запустите SNDS-кампании...
09 05 2023 21:14:25
Алгоритм ссылочного ранжирования, который показывает ее значимость, в частности, для поисковиков. Важность показателя PageRank оспаривают, но до сих пор считают. Читать!...
08 05 2023 17:40:30
Бесплатная регистрация сайта в поисковых системах и каталогах – отличный способ увеличить объемы трафика и раскрутить собственный ресурс....
07 05 2023 1:32:11
Доля органического трафика увеличилась с 14% до 44%, а небрендового — на 184%....
06 05 2023 7:24:41
Рекламируем онлайн-уроки к 1 сентября. Именно сочетание Facebook и Google Ads помогло нам сначала обратиться к родителям (которые, например, листают соцсеть по пути домой) и потом уже напомнить о себе с помощью Google Рекламы...
05 05 2023 3:55:24
Стоит установить и освоить Google Tag Manager для расширения представления сайта в выдаче...
04 05 2023 20:46:13
Покупать в Китае. Как брендам покорить сердца и кошельки китайских пользователей...
03 05 2023 10:56:54
Мануал, по которому вы создадите специальный отчет, чтобы применить его на своем сайте....
02 05 2023 11:14:49
Как жить с налогом на Google, Facebook и другие международные сервисы — объясняем детали....
01 05 2023 10:35:45
Считаем SEO-эффект от нового дизайна сайта и работы над usability...
30 04 2023 3:35:26
Чтобы перенаправить рекламу не на свой домен, арбитражники используют редирект в Яндексе при работе с партнерскими ссылками...
29 04 2023 8:10:55
Аудит юзабилити способствует следованию современным тенденциям, пониманию целевого посетителя и увеличению конверсии....
28 04 2023 6:43:30
Если ваша фирма работает на предоставление услуг в медицине, следует учесть требования рекламных систем в интернете, чтобы объявления в с первого раза прошли модерацию...
27 04 2023 2:50:23
Исследование Ringostat о самых востребованных CRM-системах в США...
26 04 2023 10:34:22
Понимания стоимость конверсии и необходимое количество конверсий, вы можете прогнозировать, сколько денег на рекламу нужно выделить. В этом заключается польза данного исследования. Читать дальше!...
25 04 2023 16:44:14
Убираем человеческий фактор при сборе отчетов по контекстной рекламе...
24 04 2023 20:37:23
Очередной красивый пост о продвижении платформы email и sms-рассылок — UniSender...
23 04 2023 5:50:29
Идеальный вариант — грамотно оптимизировать страницы фильтров уже на этапе разработки сайта...
22 04 2023 7:12:20
Эффективен ли ваш канал привлечения трафика? Лучше писать об этом с помощью формул...
21 04 2023 5:39:42
Что бывает, когда работа над продвижением сайта начинается до его выхода в паблик....
20 04 2023 18:37:24
Подборка корпоративных медиа, попав на страницы которых, не хочется их покидать....
19 04 2023 3:10:14
Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::