Что такое кластеризация запросов. Что такое кластеризация семантического ядра и как делать группировку? Бонус — мой способ класетризации запросов

Которую дополняю по чуть-чуть все время. Но я практически не написал ничего о том, что такое кластеризация ключевых (поисковых) слов и как ее сделать.

Итак, для того, чтобы начать работать, нам понадобиться:

  • Семантическое ядро (1 шт),
  • Инструменты для кластеризации (2-3 шт),
  • Запас терпения (2 кг).

Для того, чтобы понять, как происходит кластеризация поисковых слов, нам понадобится этот самый список слов. Как собрать семантическое ядро самостоятельно , я писал не один раз, поэтому повторяться не буду. Давайте представим, семантика собрана, чай заварен, а меленькая тележка терпения ждет у рабочего стола.

Что такое кластеризация?

У нас есть несколько терминов, понимание которых крайне важно для нашей работы. Значит, начнем мы именно с них:

Кластерный анализ — многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы

(с)Википедия

Кластеризация семантического ядра – упорядочивание списка ключевых слов, создание кластеров продвижения и разделения ключей по релевантным страницам.

Как получается кластеризация ключевых слов?

Кластеризация… или группировка ключевых слов возможна по нескольким принципам. Очень много авторских технологий гуляет в сети, но в основном я бы выделил 2 основных принципа:

Ручная кластеризация поисковых запросов (подходит для новых сайтов, которые есть только в проекте, возможность заложить семантику на старте запуска сайта) – предполагается, что вы собираете ключевые слова, сразу (или позже) задавая группы вручную.

Пример. Вы можете собрать ключевые слова для небольшого сайта-визитки, который вы хотите показывать пользователям в органической выдаче. Например, сайт занимается продажей услуг в сфере ремонта квартир…

Принцип сбора семантического ядра для небольшого сайта

Сами услуги делятся на несколько категорий, предположим, это отделочные работы и внутриотделочные работы. Каждое из направлений делится на группу, т.е. у вас уже получиться 2 группы. Далее, вы анализируете поисковые запросы и формируете отдельное ядро для каждой из групп. В итоге получаете кластеризованное семантическое ядро, например, в виде таблицы с полями:

  • Ключевые слова
  • Частотность
  • Url страницы
  • Группа

А дальше с помощью фильтра в таблице сортируете по группам ключевых слов. В итоге вы иметете списки слов для каждой из страниц (разделов) сайта, которые и являются в сумме кластеризованным семантическим ядром.

Как собирать семантику для проекта и кластеризовать ее наиболее эффективно?

Давайте в пример возьмет то, что описано выше, и посмотрим на предполагаемую структура сайта.

Так же, мы можем добавить некоторые дополнения к нашей кластеризации ключевых слов.

Ключевые слова для главной – в этот кластер должны войти самые важные ключевые слова для вашего сайта. Которым релевантна сама страница. (если вы предлагаете услуги ремонта квартир, пример запроса «ремонт квартир в Киеве», вполне подойдет). Получим список запросов более общего содержания нашей ниши.

Страницы услуг и товаров – кластеризация семантического ядра начинается для этих страниц с логического разделения важности. Что для вас важнее, услуги по ремонту кухни или «услуги по ремонту спальни» или все имеют одинаковый приоритет? В этот кластер должны попасть слова, которым будет соответствовать пользовательский запрос по теме услуг, например: «услуги строительной бригады».

Статьи и Блог – кластеризация семантического ядра будет содержать информационные запросы. Например: «как самостоятельно побелить стену» или «производители красок для стены» и т.д. Не пренебрегайте подобными разделами сайта, не смотря на то, что у вас коммерческий сайт и прибыль приносят только страницы с услугами, контент обычный и полезный создаст для вас стабильный трафик и поможет конвертировать читателей в клиентов.

Автоматическая кластеризация семантического ядра на существующем сайте

Если вы решили заняться SEO оптимизацией существующего сайта и не знаете с чего начать, проверьте по каким ключевым словам это можно сделать.

Например, это можно сделать с помощью Serpstat. Достаточно вбить адрес проверяемой страницы. Останется только лицезреть, по каким ключевым словам у вас уже есть позиции.


На примере я ввел адрес главной страницы и получил список ключевых фраз с позициями, а в таблице URL я нашел ссылки, которые отображаются в поисковых запросах, пройдя по ссылке я получил список релевантных фраз именно для конкретной страницы.

Таким образом вы можете посмотреть не только на каких позициях ваш сайт, но и сделать кластеризацию поисковых запросов с помощью Serpstat .

Продолжение следует…

Рассмотрим в ближайшее время:

  • Инструменты для ручной кластеризации поисковых запросов,
  • Инструменты для автоматической кластеризации поисковых запросов.

P.S. Если вы хотите заняться кластеризацией поисковых запросов, но у вас нет времени. Можно в комментариях опубликовать ссылку на ваш проект, и я напишу материал по конкретному примеру на тему, как практически реализовать кластеризацию семантического ядра.

Кластеризация запросов сортирует (разбивает) список семантического ядра (СЯ), на группы по схожести, что дает возможность в дальнейшем оптимизировать под них страницы сайта.

Как кластеризуются запросы?

Инструмент анализирует выдачу Яндекс по каждому запросу и сравнивает ее с выдачей остальных запросов из списка. Если в ТОП-10 по разным запросам находятся те же релевантные страницы, то эти запросы определяются как схожие и помещаются в одну группу. Это значит что под них можно оптимизировать одну страницу.

Порог кластеризации запросов это количество совпавших релевантных страниц в выдаче, по разным запросам. Проще говоря, если ввести в Яндекс два запроса и в выдаче ТОП-10 будет две одинаковые страницы (две из десяти), то при выставлении "порога кластеризации 2" эти два запроса будут помещены в одну группу.

Минусы ручной группировки запросов

Группировка ключевых запросов, известная также как разбивка, выполняется SEO оптимизаторами непосредственно после сбора СЯ.

  1. При наличии большого количества запросов сложно в ручном режиме определить их схожесть между собой, приходится либо вводить каждый запрос в поиск, либо полагаться на интуицию/опыт, что может сыграть злую шутку при продвижении и не дать нужных результатов.
  2. Высокая стоимость, которая сформировалась за счет длительности процесса. На качественную разбивку семантики с 500 запросами на борту уходит в среднем 4..16 часов. Необходимо вычитать каждый запрос, определить его группу (наличие которой необходимо держать в голове), при необходимости перепроверить поиском или сервисами…бррр.

Плюсы автоматической группировки запросов

  1. Скорость выполнения разбивки примерно равна скорости звука. Система проверит выдачи каждого из запросов, сравнит их и даст возможность поправить возможные мелкие исключения вручную, после чего результат можно выгрузить в CSV файл (эксель).
  2. Точность результата, досигаемая за счет исключения человеческого фактора. Человек может отвлечься и потерять мысль, забыть, недопонять или просто не уметь делать разбивку правильно, с программой такие сложности не наблюдаются.
  3. Инструмент предоставляется полностью на бесплатной основе; он не требует помесячной заработной платы, отпусков, больничных; также у него нет графика работы: работает 24/7.

Разбивка является очень важным процессом при продвижении, она задает цели для оптимизации каждой страницы проекта и всего сайта в целом.

Мнения экспертов

Топвизор - один из самых динамичных инструментов на рынке поискового продвижения. Развиваясь поступательно, команда регулярно наращивает число полезных сервисов для SEO-специалистов.

Один из наиболее интересных модулей - быстрая кластеризация поисковых запросов по принципу схожести SERP’ов.

В Топвизор наша компания перешла не по какой-либо рекомендации. Мы тестировали разные сервисы мониторинга позиций, и подкупила отзывчивость разработчика.

Приятно, когда твои предложения внедряют и делают жизнь и работу легче. И спустя время эта способность выслушать и внедрить не исчезла. Это очень круто!

Давно искал удобный сервис проверки позиций, перепробовал массу! То одно не нравилось, то другое... В Топвизоре все можно настроить под себя, а дополнительные возможности радуют еще больше.

Однозначно мастхэв! Надеюсь, что будет и дальнейшее развитие!

Мы перепробовали множество сервисов-конкурентов и выбрали именно Топвизор за качество. А также за точность и скорость проверки позиций. Теперь все новые инструменты тестируем и внедряем в свой рабочий процесс.

Особенно радует отзывчивость команды сервиса и оперативная реализация идей и пожеланий пользователей.

Когда в очередной раз на Маке я не смог открыть KeyCollector, меня спас Топвизор. Здесь я быстро получил ряд данных по сематнике для одного важного исследования. Также, при необходимости я использую Топвизор для проверки позиций сайтов клиентов, очень удобно.

Создатели сервиса знакомы с потребностями рынка, поэтому делают все возможное для автоматизации множества задач, иногда не очень популярных. Приятный и удобный сервис.

Обязательно должен быть в арсенале оптимизаторов.

Для человека, который построил себе репутацию на семантике, крайне важно всегда получать точные данные; это касается и кластеризации, и съема позиций, и аналитики. Топвизор с первых дней задал высокий уровень работы относительно рынка и каждый день подтверждает своё лидерство.

Помимо удобства и точности инструментов сервиса, хочу отметить отзывчивую работу службы поддержки и руководства!

Меня Топвизор поразил своей продуманностью и многофункциональностью. Столько мелочей учтено заранее. Я часто работаю с интерфейсами самых разных SEO-сервисов, много тестирую, но подобного уровня удобства для пользователя пока не видела больше нигде.

Впечатляет подробная Справка, доброжелательность и оперативность саппорта.

Очень удобно в нем работать – снимать и расширять сем. ядро, делать кластеризацию, контролировать позиции как сайтов, так и страниц в соцсетях и видео, каналов на Youtube, следить за конкурентами, анализировать оптимизацию своего сайта. Цены, как оказалось, очень даже доступные для работы. Из этого сервиса мне точно уходить не хочется.

Топвизором пользуюсь давно - с первых недель существования - с 2013 года. И честно говоря, просто решил протестировать еще один сервис для проверки позиций, т.к. текущий на тот момент постоянно падал и тех.поддержка не отвечала совсем.

А поддержка Топвизора отвечала за 2 минуты даже в твиттере и, что очень порадовало, многие мои предложения по улучшению исполнялись чуть ли не в тот же день.

На момент написания отзыва у меня примерно 270 закрытых тикетов и многие фишки появились с моей легкой руки. Казалось бы, причем тут поддержка в сервисе по проверке позиций? Как оказалось - самая главная часть. потому что любой глюк, любую оплошность исправляют быстро и если лишнего сняли со счета - компенсируют. А что со стабильностью? тоже все отлично (ну за исключением выкатки новых фич). За 3 с лишним года с Топвизором я загружал туда сотню различных проектов с семантическими ядрами от 10 до 5000 запросов и не было почти ни одного раза, чтобы проект не снялся вовремя или что-то случилось с данными.

Топвизор - стабильный и быстрый сервис для работы с семантикой, который делает если не все, то почти все: вордстат, адвордс, подсказки, группировка и кластеризация запросов, отличная и понятная аналитика, интеграция с вебмастером, метрикой, GA. Кроме этого есть куча и маленькая тележка сопутствующих сервисов вроде мониторинг изменений на сайте или бид-менеджер для контекста. Все эти фичи я использую на полную катушку почти в каждом новом проекте.

Если вы выбираете сервис для мониторинга позиций и других задач по SEO, рекомендую присмотреться к Топвизору.

Это целый комплекс полезных инструментов: от проверки позиций со сбором сниппетов и снимков поисковой выдачи до подробного технического анализа сайта. От подбора слов, сбора поисковых подсказок до группировки по релевантности и кластеризации тремя разными методами.

Умеет работать и интегрироваться с Яндекс.Метрикой, Я.Вебмастером, Google Analytics и Google Search Console. Настоящий сервис поисковой аналитики.

Топвизор постоянно и динамично развивается, регулярно появляются новые инструменты и расширяется текущий функционал. Интерфейс удобный, интуитивно понятный и очень хорошо продуманный разработчиками сервиса. Уделите особое внимание подробным справочным материалам по инструментам и возможностям Топвизора. Уверен, что даже у новичков не возникнет проблем и вопросов с работой после прочтения.

Начали использовать Топвизор в сентябре 2014 года, как дублирующий сервис для внутренних инструментов мониторинга и аналитики. Со временем и развитием проекта часть функционала внутренних штук полностью отрабатывается не на нашей стороне.

Используем только модуль позиций, получаем статистику по удобному API, с которым отлично дружит и Power BI/Query для визуализаций готовых отчетов по параметрам количества и динамики запросов в ТОП-3..100+ за нужный период времени.

Удобно, что сервис пользуется документооборотом по безналу через Диадок, а готовые счета за неделю до расчётной даты экономят кучу времени. У Топвизора есть самое важное, что может быть в клиентском сервисе, кроме работы технических вещей - крутая поддержка. Реакция на запросы в течении 5-10 минут, видимое желание помочь и разобраться в проблеме и улучшить функционал. Так у городов России в статистике появились разные цвета на графиках, а в справке - пару дополнительных скриншотов.

Предлагаем две бесплатные программы для Windows:

  • Majento Кластеризатор, аналогичный нашему онлайн-сервису, с возможностью ручной группировки фраз
  • кластеризатор ядра запросов на основе Excel-кластеризатора по леммам от Roman Igoshin

Majento Кластеризатор 1.4

Программа является копией нашего онлайн-сервиса, однако имеет дополнительный функционал в виде ручной группировки фраз, доступной после автоматической кластеризации поисковых запросов. Сбор данных для кластеризации берется из выдачи Яндекса и ведется с использованием лимитов Яндекс.XML . После кластеризации становится доступной функция ручной группировки запросов (перемещение запросов по группам, создание новых групп и удаление кластеров). Результаты кластериции запросов экспортируются в Excel-файл формата CSV.

В программе имеется возможность импорта данных выдачи ПС Яндекс из KeyCollector для группировки фраз без использования XML-лимитов (пример файла импорта приложен в архиве).


Основные возможности

  • Кластеризация произвольного списка запросов
  • Указание региона в Яндекс для сбора данных при кластеризации
  • Группировка запросов методами Soft и Hard, "ручное" указание порога кластеризации фраз (от 1 до 10)
  • Возможность произвольной группировки фраз
  • Импорт данных выдачи ПС Яндекс из KeyCollector для группировки фраз без использования XML-лимитов
  • Экспорт кластеризации в Excel (CSV)

Отличия от аналогов

  • Низкие требования к ресурсам компьютера, малый расход оперативной памяти
  • Кластеризация ядер любых объемов
  • Портативный формат (работает без установки на ПК или прямо со сменного носителя)
  • Бесплатное распространение

Помощь проекту

Если у вас есть желание поддержать развитие программы, вы можете перевести любую сумму одним из удобных для вас способов:

  • на кошелек WebMoney: R848899779227 (перевод производится без протекции сделки).
  • на кошелек Яндекс.Деньги (форма ниже):

Благодарим за поддержку!

История версий

Версия 1.4 (build 33), 23.11.2017:

  • добавлено отображение числа главных страниц по каждому запросу и по группе запросов в целом

Версия 1.3 (build 31), 27.09.2017:

  • добавлена возможность просмотра наиболее часто встречающихся сайтов в конкретном кластере
  • расширен список регионов Яндекс, добавлена возможность их редактирования в текстовом файле (regions.txt)
  • исправлена ситуация, когда в поле списка запросов не загружалось более 2000 строк

Версия 1.2 (build 28), 29.08.2017:

  • добавлена возможность указания региона в Яндекс для сбора данных при кластеризации
  • добавлена возможность "ручного" указания порога кластеризации фраз (от 1 до 10)
  • добавлена возможность импорта данных выдачи ПС Яндекс из KeyCollector для группировки фраз без использования XML-лимитов

Версия 1.1 (build 22), 10.08.2017:

  • добавлена возможность ручной группировки фраз
  • добавлена возможность экспорта кластеризованных групп в Excel (CSV)

Версия 1.0 (build 5), 07.06.2016:

  • возможность кластеризации по запросам из списка
  • возможность группировки запросов методами Soft и Hard

Минимальные системные требования:
- 500 МГц (рекомендуется: 1 ГГц или выше)
- 1 ГБ RAM (рекомендуется: 2 ГБ или выше)
- Microsoft Windows XP/2003/Vista/7-10
- выход в интернет

Кластеризатор по леммам

Исходя из статьи Романа Игошина (http://www.it-agency.ru/academy/excel-clusterer/), идея заключалась занести данные в таблицу, а потом уже вручную играться с параметрами, добиваясь нужного результата. Так что если идти по этому пути, то программа явно проигрывает с точки зрения удобства.

Возможно, правильней было бы улучшить изначальную идею - дописать и оптимизировать скрипты для экселя...
Поэтому полученный софт выкладывается "как есть". Если будут мысли, как докрутить до рабочего варианта - вэлкам.

Скачать кластеризатор по леммам: majento-clusterer.zip (7 Мб)

PS. Описание настроек см. в ридми + примеры включены.
PPS. Для небольшого списка запросов нужно уменьшить мин. вес до 1000000 (по логике, чем меньше запросов, тем меньше должен быть вес).

Ограничение: 5 раз в сутки для 1 IP-адреса. Для Вашего IP осталось 5 раз. Зарегистрируйтесь, чтобы снять ограничение...

Запросы для онлайн кластеризации (макс. 250) ↓


Примечание: знаки "+" из текста удаляются автоматичски

Метод кластеризации: SOFT HARD

Подобрать релевантную страницу


Защита от автоматических генераций:


Используется два метода кластеризации: Soft и Hard.

  • Soft -кластеризация: выбирается "центральный" запрос с которым сравниваются остальные запросы по количеству общих URL в ТОП-10 Яндекса. Если количество общих URL-ов превышает порог - запрос добавляется в группу.
  • Hard -кластеризация: запросы объединяются в группу, только если есть общий для всех запросов набор URL, который показывается по ВСЕМ этим запросам в ТОП-10.

При использовании сервиса кластеризации без регистрации действует ограничение - не более 250 фраз за один раз. Зарегистрированные пользователи могут группировать запросы до 500 фраз единоразово любое количество раз.

Автор : Алексей Чекушин - SEO-Эксперт Kokoc.com (Kokoc Group), создатель сервиса Just-Magic.org

В своей предыдущей статье: « » я назвал кластеризацию одним из основополагающих факторов успеха в продвижении. В этой публикации я подробно разбираю, что такое кластеризация, и как правильно применять её.

Что такое кластеризация?

Это автоматическое объединение запросов в группы, которое решает две важные задачи:

  1. Объединение похожих запросов (с одинаковым «интентом») вне зависимости от их семантической схожести. («интент» = намерение пользователя). Например, запросы «снять квартиру» и «аренда квартир» - выражают одно и то же желание пользователя.
  2. Проверка совместимости продвигаемых запросов: можно ли их продвинуть на одной странице в топ Яндекса одновременно . Т.е. возможно ли подстроить оптимизацию страницы под все эти запросы. Или же какие-то запросы требуют выноса на отдельную страницу.

Из всех существующих сегодня методов наиболее эффективно эти задачи решает, так называемая, «кластеризация по топам », когда запросы сравниваются по количеству одинаковых URL-ов в топ-10 Яндекса.

Теперь поговорим о каждом пункте подробнее.

Объединение запросов с одинаковым интентом

Что такое запросы с одинаковым интентом ? Это разные запросы, в которых человек, на самом деле, ищет одно и то же. Очевидно, что запросы «телевизоры самсунг » и «телевизоры samsung » должны продвигаться на одной странице. Но это - явные вещи.

Однако существуют и куда менее очевидные примеры:

  • «спецодежда» - «рабочая одежда»
  • «ипотека» - «кредит под залог квартиры»
  • «автоломбард» - «кредит под залог авто»

Семантически эти пары совсем не похожи, но фактически обозначают одно и то же. Классические способы поиска таких запросов, обладающих единым интентом (намерением пользователя), основываются на синонимах. Как правило, с этой целью используют словари синонимов или синонимы Яндекса . Однако в обоих методах есть свои серьезные минусы.

Если мы будем пользоваться словарями синонимов, то найдем там весьма странные связи. Например, согласно одному из самых популярных словарей, синонимом к «мобильный телефон» являются:

  • мобила
  • мобильник
  • радиотелефон
  • сотовик
  • сотовый телефон
  • телефон
  • эбонитовый друг

Сотовый телефон - однозначно полезный синоним. А вот «радиотелефон» - совершенно другой тип товара. Ну а кто такой «эбонитовый друг», остается только догадываться.

Второй вариант поиска синонимов - попытаться «выцепить» их из подсветок Яндекса. Но это сопряжено с двумя проблемами:

Во-первых, подсвечиваются не только синонимы, но и другие слова. Например, в подсветку по ключевой фразе «сотовые телефоны» попадает не только синоним «мобильные», но и: «цены», «москва», «купить», «каталог», которые подсвечиваются по другим причинам. В целом, это проблема решаемая, обходные пути есть.

Во-вторых, синонимы в Яндексе являются невзаимными . Например, вхождение «мобильные телефоны» является синонимом к запросу «сотовые телефоны», а в обратном порядке это уже не работает. «Сотовые телефоны» не будет синонимом к «мобильные телефоны», и этот момент становится критически важным. Как понять, что запрос «сотовые телефоны» соотносится с запросом «мобильные телефоны», если слово «сотовые» по нему не подсвечивается?

Наконец, как вы поймете, что запросы «ювелирный магазин», «ювелирные изделия» и «ювелирные украшения» обладают одним интентом, если, с точки зрения Яндекса, они не являются синонимами?

Решение проблемы приходит через кластеризацию запросов по топам. Нахождение в топе одинаковых URL-ов сигнализирует об одинаковом интенте. Вот пример работы кластеризатора just-magic:

Вроде бы, кластеризатор все правильно объединил: «мобильные телефоны» положил в одну группу с «сотовыми», а «ювелирные изделия» — в группу, где присутствует «ювелирный магазин». Почему же тогда «ювелирные украшения» попали в отдельную группу, несмотря на то, что тематика здесь та же (это видно по столбцу «spec-grp»)?

Ответ на этот вопрос приводим в следующей части статьи.

Проверка совместимости продвигаемых запросов

Для продвижения нам не просто нужно собрать на странице похожие запросы, необходимо еще и проверить их совместимость.

В Яндексе нет единой формулы ранжирования под все запросы. Запросы делятся на большое количество типов. И формулы для разных типов запросов часто предъявляют к странице взаимоисключающие требования для попадания в топ. Причем часто визуально эти запросы очень похожи. Например, запросы «смартфон» и «смартфоны». Первый — некоммерческий, геонезависимый. Второй - коммерческий геозависимый. Как видно, в данном случае единственное и множественное число - несовместимы на одной странице!

Если вы вдруг подумали что это логично, то вот другой пример: запросы «ноутбук» и «ноутбуки». Они оба коммерческие и геозависимые и прекрасно совмещаются на одной странице.

Коммерческость и геозависимость - лишь два самых очевидных признака. На самом деле, их намного больше. Например, главную или внутреннюю страницу поиск хочет видеть в топе по запросу. Когда мы не знаем всего многообразия признаков, единственный способ определить возможность совместного продвижения запросов на странице - это посмотреть, есть ли URL-ы, которые одновременно показываются по двум запросам, и подсчитать, сколько их.

Логика здесь следующая:

  • Если по запросам в топе находятся одинаковые URL-ы, значит их можно продвинуть на одной странице.
  • Если по запросам общих URL-ов нет, то мы не знаем, возможно ли продвинуть запросы на одной странице. Скорее всего, это невозможно.

И здесь мы сталкиваемся с вопросом: как именно объединять запросы на основании топов? Я различаю два метода - так называемые, «soft» и «hard» кластеризации.

Следующая картинка наглядно объясняет разницу между ними:

Soft-кластеризация сводится к следующему: для формирования группы берется один «центральный» запрос и все остальные сравниваются с ним по количеству общих URL-ов в топ-10 Яндекса. Если количество общих URL-ов превышает порог - запрос добавляют в группу.

При hard-кластеризации запросы объединяют в группу, только если есть общий для всех запросов набор URL-ов, который показывается по всем этим запросам в топ-10.

Soft-кластеризация дает группы бὸльшего размера, но часто ошибается в определении возможности совместного продвижения запросов на странице.

Классический пример : представим себе, что в качестве «центрального» был выбран запрос, по которому в топе 5 главных и 5 внутренних страниц. К нему могут оказаться привязаны два запроса, у одного из которых в топе 10 «морд», у другого - 10 «внутряков». Очевидно, что из этих трех запросов мы можем продвинуть только два (в зависимости от типа страницы, который выберем - главная или внутренняя). В случае hard-кластеризации появление такой группы невозможно.

Но это все лирика. Перейдем к численным оценкам.

Итак, у нас есть два критерия оценки кластеризации:

  1. Насколько полно собрана группа запросов. То есть, попали ли в неё все запросы, имеющие один и тот же «интент». За 100% возьмем ситуацию, когда все запросы с одним интентом - попали.
  2. Насколько попавшие в группу запросы совместимы между собой. За 100% возьмем ситуацию, когда все попавшие в кластер запросы совместимы между собой.

Ключевой параметр кластеризации - минимальное количество общих URL-ов для образования группы. Это число называют «порогом кластеризации ». Чем он выше - тем точнее получаемые группы, но при этом они закономерно уменьшаются в размерах. Экспериментальным путем было определено, что минимальный рабочий порог для «hard»-кластеризации - 3 URL-а, для «soft» - 4 URL-а. Работать с меньшим числом - нет смысла: слишком много «левых» запросов попадает в группы.

Вот пример результатов для разных порогов для hard-кластеризации:

Используя сервис just-magic.org , мы провели сравнение двух методов кластеризаций на выборках из разных тематик. Ниже представлен сводный график:

Сравнения проводилось для методов «soft» и «hard». Для числа пересекающихся URL-ов от 3-х до 6-ти (это минимальное число общих URL-ов для формирования кластера).

Как видно из графика, hard-кластеризация показывает очень высокую точность уже при пороге в 3 URL-а - 92%. Чтобы читатели статьи понимали, насколько это большая цифра, приведу пример: в исполнении опытного оптимизатора без инструментов точность будет составлять порядка 70%, а если за работу возьмется неопытный специалист, точность не будет превышать 30%. При этом, однако, полнота получается достаточно низкая - всего 40%. Но, опять же, смотря, с чем сравнивать. «Руками» оптимизаторы набирают максимум 20%.

Soft-кластеризация демонстрирует очень хорошие показатели полноты, но точность - «хромает на обе ноги». Приемлемые для продвижение значения получаются только на пороге «5», но при этом полнота падает до 23%.

Означает ли это, что данный метод неприменим? Нет. Все зависит от вашей задачи. Если вы занимаетесь «трафиковым» продвижением, и вам важно вывести на странице как можно больше запросов - неважно каких, то вам подойдет soft-кластеризация. Именно поэтому, когда в январе этого года в сервисе just-magic.org появилась hard-кластеризация, для модуля «маркеры» был сохранен «soft»-режим.

Если же вам важно вывести на странице определенный набор запросов, то ваш выбор однозначен - только hard-кластеризация, только хардкор. Еще один плюс hard-кластеризации состоит в том, что получаемые группы - однозначны. То есть, запросы, оказавшиеся в одной группе по 4 URL-ам, не могут оказаться в разных группах по 3 URL-ам (при использовании soft-кластеризации, такое запросто может быть). Поэтому кластеризатор Just-Magic отображает группы сразу по 3,4,5 и 6 URL-ам.

Стоит отдельно отметить, что если мы хотим в дальнейшем проводить текстовый анализ страницы, то допустимо использовать только hard-кластеризацию. Дело в том, что любой текстовый анализ по группе запросов для страницы очень строго соотносится с качеством этой группы. Только hard-кластеризация обеспечивает группы нужного качества.

Подведем итоги

Итак, какие бонусы дает кластеризация?

Во-первых, это ускорение процесса разбора больших ядер. Раньше на это уходили недели и месяцы работы. С помощью кластеризатора оптимизатор делает это за пару часов.

Во-вторых, это возможность распределить запросы по страницам таким образом, чтобы их было возможно одновременно продвинуть. «Ручной» альтернативы кластеризации здесь нет - даже опытный оптимизатор совершает до 30% ошибочных распределений, если действует «на глазок».

Исходя из второго пункта, становится понятно, что кластеризацию при продвижении нужно использовать всегда . Даже если ядро меньше 100 запросов, сделать правильно распределение запросов по страницам «на глазок» вы не сможете. Исключением могут стать только тематики со сверхнизкой конкуренцией, где кластеризация по топам перестает работать из-за отсутствия в топах релевантных ответов.

Если вы занимаетесь «трафиковым» продвижением, то можете пользоваться как «soft», так и «hard» методами кластеризации. Если же осуществляете «позиционное» продвижение, когда важно вывести в топ все запросы, то подойдёт только метод «hard». Также, с совместим только «hard»-режим.

Используйте кластеризацию в своей работе, и вы обретете счастье и гармонию, а продвигаемые вами запросы гарантированно попадут в топ!

Похожие статьи