На сегодняшний день у Яндекса есть несколько формул, которые основаны на технологии MatrixNet и машинном обучении. Так в 2010 году Дэн Расковалов рассказал, что насчитывается около 420 факторов, влияющих на ранжирование. С первого взгляда даже сложно представить, что собой представляют такое количество факторов, но можно с уверенностью сказать, что для ранжирования используется не только отдельно взятый фактор для конкретного случая, но их комбинации, так называемые мономы. И если в факторе заключен хоть какой-то физический смысл, то мономы – это просто их приложения, не имеющие какого-либо смысла вообще.
Пример мономы – как можно физически обозначить среднюю индексацию сайта, умноженную на количество букв в URL и на количество ключевых слов в теги?
Естественно, что в этом нет смысла, но благодаря проявлению этих факторов, включенных в общую формулу внутренние метрики сайта растут.
И все-таки, единой формулы релевантности не существует. Есть несколько формул, предназначенных для крупных регионов, куда входит Москва, Санкт-Петербург и еще 16 городов России, Белоруссии, Украины и Казахстана. Так же имеется общероссийская формула, которая применяется для всех остальных регионов. К тому же прослеживаются различия степени запросов формул. Например, некоммерческие запросы ранжируются немного по другому, чем коммерческие, другая формула ранжирования у запросов, которые связаны с музыкой, видео, картинками и пр.
Но вот MatrixNet построил соответствующую оптимальную формулу на основе оценки асессоров, и оказалось, что этого мало. Осталось много мусора, на которые необходимо внести ограничение, то есть машинного обучения не хватает для программы, некоторые формулы подвергаются еще и ручной корректировки. Поэтому, на данный момент выделяется несколько типов фильтров пессимизации.
Первый – это пред-фильтр, который применяется до расчета основной формулы ранжирования и выполняет обнуление или дисконтирование значимых факторов. То есть некоторые ссылки могут не участвовать в ранжировании.
Второй – пост-фильтр или штрафы, используется наряду с пред-фильтром, получил в последнее время широкое применение. Используется для непосредственного дисконтирования значения функции релевантности. Например, выявляется значение релевантности запросов, которые находятся в заголовки сайта и затем за какие-то невыполнения дополнительных условий или обыкновенные погрешности накладываются штрафы. И это происходит очень часто особенно в последнее время, появляются новые фильтры - за портянки, за переоптимизацию, за перенасыщенность ключевыми словами, в итоге сайт получает соответствующие штрафы. На деле получается так, что великий MatrixNet не в состояние сделать все автоматически, поставить необходимые фильтры и рассчитать формулу, поэтому некоторые настройки программистам приходиться делать вручную, то есть вставлять так называемые костыли.
Третье - стоит сказать, что помимо вот таких штрафов существует фильтрация уже непосредственно перед выдачей. Когда ранжирование документов сделано, но по каким-то решениям, некоторые из них не отобразятся в результате поиска. Яркими примерами такой фильтрации можно назвать аффилированные сайты, когда группируются результаты поиска и вместо нескольких сайтов, по запросу показывается в поисковой системе только один из них. До недавнего времени можно было предположить, что в результате показывается наиболее релевантный сайт, но на сегодняшний день это не так. Наверное, опять были введены новые дополнительные критерии.
Четвертое – фильтр на одинаковые сниппеты, то есть по умолчанию будет показан в выдачи по определенному запросу только один результат. Проблема стала актуальной практически для всех интернет-магазинов, когда информация для описания товаров берется с сайтов дистрибьюторов. То есть интернет-магазин является дилером и официальная компания требует, чтобы техническое описание было сделано без изменений и никаких вольностей в этом вопросе не допускается. В результате сниппетовщик объединяет одинаковые куски в нескольких интернет магазинах, соответственно сами сниппеты получаются одинаковые и вместо нескольких интернет-магазинов по умолчанию в выдачи появляется один, к тому же не самый релевантный.
Пятое – примеси к органическим результатам поиска – алгоритм сработал, построил формулу, по формуле было произведено ранжирование результатов поиска, но это получил органические результаты, то есть разбавленные какими-то еще формулами и алгоритмами. В Яндексе такая смесь называется спектральной примесью, когда в результате определенного запроса три места в ТОП 10 занимают сайты с, так называемыми, «утонченными» запросами – обзоры, фото, цены, отзывы и многое другое.
Кроме спектральной примеси применяется еще и быстроботовская примесь. Это результаты свежи проиндексированных документов с приоритетных ресурсов. Недавно наблюдался такой феномен, когда по большому количеству запросов «сайт Москвы» пользователи в результатах выдачи получали сайт компании «Автофургон инфо». Вот таким образом иногда работает спектральная примесь.
Качество выдачи быстроботовской примеси оставляет желать лучшего. Быстренько проиндексировав приоритетные ресурсы и встретив там незначащие и не связанные с тематикой сайта запросы, пользователь в результате получит совсем не то, что ожидал увидеть. И главное, не понятно, по каким критериям идет такая оценка.
Если учитывать все перечисленное, то получается что попасть в ТОП 10 по одному или двум запросам становиться с каждым днем все сложнее и то, ваша позиция в поисковике будет не выше 3-го места. То есть приходиться решать непростые задачи по улучшению характеристик сайта для того, чтобы получить нормальное ранжирование по определенному запросу.