Главная / Блог компании «БиАй Интеграция» / Куда летит Жар-птица

Куда летит Жар-птица

В ноябре 2016 года Яндекс анонсировал запуск нового алгоритма ранжирования сайтов Палех. Ниже представлено тезисное описание этого алгоритма и новой конъюнктуры поиска.
  • Известно, что все поисковые запросы принято делить на 3 группы: высокочастотные (например, «скачать реферат»), среднечастотные (например, «скачать реферат по физике») и низкочастотные (например, «как скачать реферат по физике, если отключили интернет на улице суворова»). Для работы с первыми двумя группами запросов Яндексом накоплена пользовательская статистика, позволяющая с максимальной степенью точности предлагать в ТОП-10 именно те сайты, которые удовлетворяют потребностям пользователей. Но что делать с третьей группой запросов? В нашем примере, выдавать сайты интернет-провайдеров? Сайты, посвященные великим полководцам или достопримечательностям на улице Суворова? Причем низкочастотных запросов становится все больше – они занимают до 40% всего поискового трафика. А работать с ними все сложнее. Яндекс графически изобразил группы запросов в виде Жар-птицы, используемой в палехской росписи, где хвост – это большое число низкочастотных запросов. 

  • Для работы с низкочастотными запросами Яндекс теперь использует математическую модель, известную по названию «искусственная нейронная сеть». Любой алгоритм, использующий эту модель, самообучаем. Если не вдаваться в детали, то суть работы нового алгоритма ранжирования по низкочастотным запросам такова. Запрос пользователя и заголовок веб-страницы (содержимое тега title) разбиваются на слоговые триграммы (например, слово «Палех» на «па», «але», «лех», «ех»), которые располагаются в многомерной матрице из около 10 000 триграмм, существующих в русском языке. Координаты триграмм образуют суммарный вектор, и алгоритм из суммарных векторов всех веб-страниц рунета ищет наиболее близкие к вектору запроса (косинус угла между векторами должен стремиться к единице). Причем, так называемый скрытый слой нейронной сети обсчитывает триграммы, напрямую не входящие в поисковый запрос, но связанные с ним по смыслу (например, если в запросе есть слово «Планета», то нейронная сеть обсчитает вектора, содержащие триграммы из слов «Земля», «Юпитер», «Венера», «Сатурн» и т.д.). 
  • Таким образом, семантическое облако заголовка каждой веб-страницы ранжируется по более чем 300 факторам (прямым и семантически схожим триграммам). Сама формула ранжирования, которая непрерывно самосовершенствуется, по заявлениям самого Яндекса весит более 300 Мб (вспоминается недалекое прошлое, когда авторитетные сеошники заявляли, что в формуле ранжирования Яндекса около 80 факторов). 
  • Яндекс заявляет о том, что следующий шаг – это учет в семантическом ранжировании с помощью нейронной сети содержимого текста страниц.

О чем это говорит и что делать дальше?

  • Если раньше тег title составлялся по принципу «чем ближе к поисковому запросу – тем лучше», то сейчас он должен быть ближе к тексту на странице. 
  • Растет влияние журналистики на SEO. Тексты и метатеги должны быть по возможности семантически глубокими (это не относится к страницам с карточками товаров в интернет-магазинах). Что это означает – тема отдельного поста. 
  • А ссылки всё, закончились? – влияние ссылочной массы на ранжирование снизилось, но не исчезло. Более того, возрос вес качества сайтов-доноров. Если пройдя по ссылке пользователь задержался на сайте акцепторе, а затем вернулся обратно, то такая ссылка полезна.

Возврат к списку