“Яндекс” объяснил “цензуру” в картинках
Администрация поисковой системы "Яндекс" опубликовала официальное заявление относительно "цензуры", якобы имевшей место в поиске по картинкам.
В последние дни в блогах обсуждается якобы имеющая место цензура в поиске по картинкам Яндекса. На самом деле у нас случился технический форс-мажор, болезнь роста.
Мы запустили поиск по картинкам летом 2002 года, и тогда в нашей базе было примерно 12 миллионов изображений. К декабрю 2010 года их количество увеличилось до 1,8 миллиардов. При этом мы преимущественно индексировали картинки, размещенные на русскоязычных ресурсах, а в зарубежном интернете отбирали самые популярные картинки с самых интересных сайтов. Но для качественного ответа нашему пользователю нужно хорошо находить и индексировать картинки со всего мирового интернета.
Поэтому в декабре прошлого года команда Яндекс.Картинок приступила к масштабной индексации картинок в мировом интернете. Она поставила перед собой цель увеличить количество зарубежных картинок в 5 раз, при этом не забывая о повышении качества сервиса. Это большая и интересная задача, которая требует архитектурных изменений в поиске по картинкам.
Раньше в поиске по картинкам новая поисковая база выкладывалась раз в неделю. Чтобы выложить новую поисковую базу, недостаточно просто скачать картинки со всего интернета. Для них ещё нужно построить уменьшенные копии, найти и связать между собой дубликаты, удалить спам и т.д. Достаточно сказать, что размер нашего картиночного индекса сейчас - 3 терабайта, а уменьшенных копий картинок, которые тоже хранятся у нас на серверах, - 25 терабайт.
К сожалению, при таком резком расширении индекса случилась болезнь роста. Создание уменьшенных копий, склейка дубликатов и прочие процессы формирования базы стали занимать существенно больше времени.
Мы надеялись, что вот-вот справимся и выложим новую базу картинок, но недооценили масштаб происходящего. Мы слишком резко надавили на педаль газа, но забыли пристегнуть ремни. В результате накопился большой разрыв между датой, когда наш робот скачал картинку, и датой её появления в поиске.
Сегодня этот разрыв составляет непростительные 6 недель. Самая свежая картинка в базе датируется 13 февраля, а сама база была выложена в поиск 10 марта. Соответственно, сейчас наши пользователи не могут найти изображения, которые появились в интернете позже 13 февраля. Например, изображения последствий землетрясения в Японии, которое произошло 11 марта, конкурс плакатов в блоге Алексея Навального или фото с гражданской войны в Ливии.
Во вторник произойдет крупнейшее обновление зарубежной части базы в истории нашего картиночного сервиса. Её общий объем составит 3,9 млрд изображений, что более чем в 2 раза больше декабрьских показателей. В этой базе будут изображения, которые появились в интернете до 27 февраля, например, конкурс плакатов и начало войны в Ливии, а события в Японии – нет, потому что они случились в марте.
Таким образом, отставание сократится с 6 недель до 4, что всё равно неприемлемо. Но уже через неделю, когда произойдет следующее увеличение базы, мы сократим этот разрыв до 2 недель.
А скоро на Яндексе появится поиск по изображениям со всего интернета с полностью актуальной базой.
www.securitylab.ru