Глобалният срив на Facebook - фатално стечение на обстоятелства

Глобалният срив на Facebook - фатално стечение на обстоятелства

Зле написана команда, пречеща на възстановяването DNS система, и строга физическа сигурност стоят зад прекъсването

Александър Главчев
159 прочитания

Социалната мрежа Facebook, която миналата седмица преживя многочасово прекъсване работата си и на притежаваните от нея Instagram, Whatsapp и OculusVR, обяви за основна причина неудачно изпълнение на планово техническо обслужване. В резултат DNS сървърите ѝ се оказаха недостъпни, но основният резултат бе сриването на основната мрежа на компанията.

Ситуацията бе влошена от факта, че загубата на DNS направи невъзможно инженерите на Facebook да получат отдалечен достъп, чрез който се надяваха да възстановят мрежата. Facebook просто изчезна от интернет. Наложи се ръчно рестартиране на системите директно в центровете за данни.

Това забави процеса, като допълнителна трудност бяха мерките за сигурност, наложени именно като пречка за евентуална външна намеса. "Трудно е да се стигне дотам, а хардуерът и рутерите са проектирани да бъдат трудни за промяна дори при физически достъп", обяснява Сантош Джанардан, вицепрезидент по инфраструктурата и инженеринга във Facebook.

Възстановяването на услугите за клиенти, които имат достъп до мрежата, също е отнело много време, тъй като едновременното им активиране идва с повишен риск от нова поредица от повреди. "В някои центрове за данни намалението на консумацията на енергия се измерва в десетки мегавати и рязкото ѝ увеличаване може да доведе до нежелани последици, вариращи от повреда на електрическите системи до нарушаване на кеширането", добавя Джанардан.

Общо системният срив на Facebook продължи седем часа и пет минути.

Проблем с планово техническо обслужване

Инженерите на Facebook планираха да затворят само част от магистралната мрежа. Но изпълнението на команда за оценка на достъпността на основната мрежа неволно прекъсва всички връзки и спира комуникациите на центровете за данни на Facebook.

Facebook разполага с инструмент за предотвратяване на изпълнението на команди, които биха могли да имат толкова пагубни последици, но в този случай той не е сработил. "Нашите системи проверяват команди като тази, за да предотвратят такива случаи, но грешка в инструмента за одит попречи на спирането на командата", обяснява Джанардан.

Отказ на DNS сървърите

Системата за имена на домейни (DNS) отговаря за превеждането на имената на интернет домейни в IP адреси, като Facebook има свои собствени такива сървъри. DNS изпращат BGP (Border Gateway Protocol) съобщения до рутери, които съхраняват информация за маршрутите, използвани за достигане на конкретни IP адреси.

DNS сървърите на Facebook обаче са изпращали BGP съобщения, които са прекъсвали маршрутите, което е направило невъзможно преминаването на трафик през гръбнака на Facebook. "В резултат на това дори тези DNS сървъри, които бяха в работно състояние, бяха недостъпни, продължава Джанардан. В резултат достъпът нашите сървъри от останалата част на интернет стана невъзможен."

Изводи

Инцидентът показва наличие на недостатъци в архитектурата на Facebook. Според специалисти за избягване на бъдещи подобни проблеми компанията трябва да осигури две DNS системи, които могат да се заменят. Например Amazon Web Services използва две външни услуги за осигуряване на капацитет за архивиране, Dyn и UltraDNS.

Има и друго, което важи за всички доставчици. Често в техните мрежи са налице преплетени зависимости, така че дори малка грешка в някаква част от архитектурата на услугата може да предизвика каскаден ефект и да доведе до сериозни последици.

Социалната мрежа Facebook, която миналата седмица преживя многочасово прекъсване работата си и на притежаваните от нея Instagram, Whatsapp и OculusVR, обяви за основна причина неудачно изпълнение на планово техническо обслужване. В резултат DNS сървърите ѝ се оказаха недостъпни, но основният резултат бе сриването на основната мрежа на компанията.

Ситуацията бе влошена от факта, че загубата на DNS направи невъзможно инженерите на Facebook да получат отдалечен достъп, чрез който се надяваха да възстановят мрежата. Facebook просто изчезна от интернет. Наложи се ръчно рестартиране на системите директно в центровете за данни.

С използването на сайта вие приемате, че използваме „бисквитки" за подобряване на преживяването, персонализиране на съдържанието и рекламите, и анализиране на трафика. Вижте нашата политика за бисквитките и декларацията за поверителност. ОК