Производительность системы индексации Yahoo выросла на треть

Компания Yahoo сообщила о переводе своей системы индексации сайтов в интернете на программную платформу Hadoop.

Среда Hadoop на основе Java разрабатывается специалистами организации Apache Software Foundation и позволяет повысить скорость выполнения сложных задач за счет организации системы распределенных вычислений. Принцип работы Hadoop сводится к разбиению исходной задачи на множество подзадач, каждая из которых может быть обработана отдельным компьютерным узлом.

В Yahoo отмечают, что процесс построения поискового индекса (Search Webmap) начинается с создания огромной базы данных всех известных веб-страниц. Согласно статистике Yahoo, в эту базу входят около триллиона ссылок, а ее размер составляет более 300 Тб в сжатом виде. Обработка такого количества информации требует колоссальных вычислительных мощностей.

Yahoo подчеркивает, что на сегодняшний день Search Webmap является самым большим Hadoop-приложением в мире. Общее число процессорных ядер, задействованных при построении поискового индекса, исчисляется многими тысячами. Причем, как отмечается, после перехода на среду Hadoop скорость выполнения операций выросла на 34%.

Yahoo в настоящее время находится на втором месте в списке крупнейших поисковиков мира. Согласно статистике comScore, сейчас рыночная доля Yahoo составляет немногим менее 13%. Безоговорочным лидером является Google, обрабатывающий около 62% от общего количества поисковых запросов, вводимых пользователями интернета.

citcity.ru

публикации сходной тематики

Комментирование закрыто.

 

При наполнении сайта использована информация из открытых источников. Владелец сайта не несет ответственности за недостоверную и заведомо ложную информацию размещенную на страницах сайта. При использовании информации опубликованной на нашем сайте, ссылка обязательна.

Реклама на сайте: