“Яндекс” объяснил “цензуру” в картинках

Администрация поисковой системы "Яндекс" опубликовала официальное заявление относительно "цензуры", якобы имевшей место в поиске по картинкам.

В последние дни в блогах обсуждается якобы имеющая место цензура в поиске по картинкам Яндекса. На самом деле у нас случился технический форс-мажор, болезнь роста.

Увы, технический сбой в сервисах Яндекса интерпретируется как акт цензуры не в первый раз – сторонниками самых разных партий и точек зрения. Мы понимаем, что подозрения рождаются легко, а рассеиваются долго, поэтому считаем нужным подробно рассказать, что именно случилось.

Мы запустили поиск по картинкам летом 2002 года, и тогда в нашей базе было примерно 12 миллионов изображений. К декабрю 2010 года их количество увеличилось до 1,8 миллиардов. При этом мы преимущественно индексировали картинки, размещенные на русскоязычных ресурсах, а в зарубежном интернете отбирали самые популярные картинки с самых интересных сайтов. Но для качественного ответа нашему пользователю нужно хорошо находить и индексировать картинки со всего мирового интернета.

Поэтому в декабре прошлого года команда Яндекс.Картинок приступила к масштабной индексации картинок в мировом интернете. Она поставила перед собой цель увеличить количество зарубежных картинок в 5 раз, при этом не забывая о повышении качества сервиса. Это большая и интересная задача, которая требует архитектурных изменений в поиске по картинкам.

Раньше в поиске по картинкам новая поисковая база выкладывалась раз в неделю. Чтобы выложить новую поисковую базу, недостаточно просто скачать картинки со всего интернета. Для них ещё нужно построить уменьшенные копии, найти и связать между собой дубликаты, удалить спам и т.д. Достаточно сказать, что размер нашего картиночного индекса сейчас - 3 терабайта, а уменьшенных копий картинок, которые тоже хранятся у нас на серверах, - 25 терабайт.

К сожалению, при таком резком расширении индекса случилась болезнь роста. Создание уменьшенных копий, склейка дубликатов и прочие процессы формирования базы стали занимать существенно больше времени.

Мы надеялись, что вот-вот справимся и выложим новую базу картинок, но недооценили масштаб происходящего. Мы слишком резко надавили на педаль газа, но забыли пристегнуть ремни. В результате накопился большой разрыв между датой, когда наш робот скачал картинку, и датой её появления в поиске.

Сегодня этот разрыв составляет непростительные 6 недель. Самая свежая картинка в базе датируется 13 февраля, а сама база была выложена в поиск 10 марта. Соответственно, сейчас наши пользователи не могут найти изображения, которые появились в интернете позже 13 февраля. Например, изображения последствий землетрясения в Японии, которое произошло 11 марта, конкурс плакатов в блоге Алексея Навального или фото с гражданской войны в Ливии.

Во вторник произойдет крупнейшее обновление зарубежной части базы в истории нашего картиночного сервиса. Её общий объем составит 3,9 млрд изображений, что более чем в 2 раза больше декабрьских показателей. В этой базе будут изображения, которые появились в интернете до 27 февраля, например, конкурс плакатов и начало войны в Ливии, а события в Японии – нет, потому что они случились в марте.

Таким образом, отставание сократится с 6 недель до 4, что всё равно неприемлемо. Но уже через неделю, когда произойдет следующее увеличение базы, мы сократим этот разрыв до 2 недель.

А скоро на Яндексе появится поиск по изображениям со всего интернета с полностью актуальной базой.

www.securitylab.ru

публикации сходной тематики

Комментирование закрыто.

 

При наполнении сайта использована информация из открытых источников. Владелец сайта не несет ответственности за недостоверную и заведомо ложную информацию размещенную на страницах сайта. При использовании информации опубликованной на нашем сайте, ссылка обязательна.

Реклама на сайте: