Новый алгоритм Яндекса «Обнинск»

Обнинск13 сентября 2010 года Яндекс объявил о вводе нового алгоритма поискового ранжирования «Обнинск».В основном алгоритм затронул гео-независимые запросы, т.е. запросы без региональной привязки, которых в выдаче большинство.

Над «Обнинском» мы работали особенно тщательно, потому что новая программа улучшает ранжирование по гео-независимым запросам, а таких в потоке до 70 процентов.

Для тех, кому интересна внутренняя кухня: сложность формулы ранжирования выросла почти в два с половиной раза, и теперь объем формулы составляет 280 Мбайт (совсем недавно, в июле 2010 года, Илья Сегалович на конференции SIGIR рассказывал, что формула ранжирования, занимавшая в 2006 году 0,02 килобайта, разрослась до ~120 Мбайт, а теперь ему снова придется перерисовывать слайд).

Первыми пользователями нового ранжирования стали украинский (август) и белорусский (сентябрь) поиски. Российской же версии (которая, собственно, и есть «Обнинск») потребовалась дополнительная оптимизация: поскольку пользователи задают Яндексу порядка ста миллионов запросов в день, мы были обязаны обеспечить новому алгоритму максимальную производительность (даже если он заметно сложнее предыдущего).

В августе его уже обкатывали в бета-тестировании. Непредвиденных сюрпризов тогда не было. И хотя формула ранжирования  увеличилась почти в 2,5 раза, особых изменений не наблюдается и сейчас. Какие факторы стали влиять больше, сказать пока невозможно. Ясно одно, что число их увеличивается с каждым новым алгоритмом в разы и действуют они все в совокупности.

Все это началось еще в ноябре 2009 года, когда Яндекс ввел алгоритм «Снежинск» с машинным обучением Матрикснет. Алгоритм стал самообучаемым и принес тогда много проблем. Несколько месяцев потребовалось, чтобы понять как с ним работать. Важная отличительная особенность  Матрикнета  в том, что  с его помощью можно построить длинную и сложную формулу ранжирования, которая учитывает тысячи факторов и комбинаций. Причем, для достаточно узких классов запросов своя формула. На основе Матрикнета теперь работает «Обнинск».

Судя по нашим проектам старые сайты чувствуют себя лучше, чем молодые. Все-таки возраст сайтов и ссылок играет важную роль в ранжировании. В выдаче опять появились сайты с переспамленными страницами. То ли это недоработки нового алгоритма, то ли ослабили текстовый фильтр. Как показывает практика, таких глюков будет еще много и понадобится время, для того чтобы Яндексу довести свой алгоритм до ума, а нам разобраться в нем.

Ну вот, наступает очередная головная боль для всех SEOшников.