“Яндекс” объяснил причину сбоя
Яндекс дал официальное объяснение сегодняшнего происшествия:
Сегодня в течение нескольких часов сервисы Яндекса были недоступны. Проблема вызвана ошибкой программного обеспечения на маршрутизаторе, расположенном в нашем новом дата-центре в Амстердаме. В Яндексе используются протоколы маршрутизации – внутренний протокол OSPF и внешний протокол BGP. Из-за ошибки информация обо всех внешних маршрутах оказалась во внутренних таблицах маршрутизации. Это примерно на три порядка больше маршрутов, чем обычно. Протокол OSPF не рассчитан на такое количество. В результате у всех маршрутизаторов кончилась память, и они перестали работать. Нарушилась работа сети, и через несколько минут Яндекс стал полностью недоступен.
Администраторы исправили ошибку на маршрутизаторе. После этого, чтобы снять лишнюю нагрузку с остальных маршрутизаторов, которых у нас больше сотни, нашим специалистам пришлось разделить сеть на несколько частей. Количество трафика снизилось, у маршрутизаторов появилось больше свободной памяти, и они смогли самостоятельно восстановить связность сети.
Сеть начала постепенно подниматься. Через некоторое время сервисы Яндекса стали доступны большей части пользователям.
www.securitylab.ru