Amazon разкри причината за продължило няколко часа прекъсване на облачната

...
Amazon разкри причината за продължило няколко часа прекъсване на облачната
Коментари Харесай

Amazon посочи „скрит дефект“ като причина за глобалния срив на AWS

Amazon разкри повода за траяло няколко часа спиране на облачната платформа AWS тази седмица, която остави без интернет всичко от информационни приложения като Signal до умни устройства като кревати, термостати и охранителни системи. Причината се оказа бъг в автоматизационния програмен продукт, довел до световни разстройства, написа Guardian. 

В дълго изложение на повода за спирането, оповестено в четвъртък, AWS разкри поредност от събития, довели до срутва на хиляди уеб сайтове и приложения, които хостват услугите си при компанията.

AWS заяви, че част от клиентите не са могли да осъществят връзка с DynamoDB, системата за бази данни на платформата поради „ прикрит недостатък “ в автоматизираната ѝ система за ръководство на DNS (системата за имена на домейни).

DynamoDB разчита на стотици хиляди DNS записи, които се обновяват автоматизирано. Тази автоматизация има за цел да прибавя потенциал при потребност, да компенсира хардуерни проблеми и да разпределя дейно трафика.

Според AWS повода за казуса е бил празен DNS запис, обвързван с района US-East-1 (Вирджиния) – един от главните центрове за данни на компанията. Автоматизираната система не е съумяла да разпознае и поправя грешката сама, заради което е било належащо ръчна интервенция, с цел да бъде отстранена.

AWS заяви, че краткотрайно е изключила автоматизираните системи за обмисляне и осъществяване на DNS записите в DynamoDB в световен мащаб, до момента в който отстранява повода за случая и прибавя спомагателни механизми за отбрана.

В резултат на това казусът е предизвикал спирания и на други AWS принадлежности.

Сред засегнатите от спирането бяха платформи като Signal, Snapchat, Roblox и Duolingo, както и услуги като банкови уеб сайтове и Ring (системи за умни звънци). По данни на Downdetector – уебсайт, който следи сривове в онлайн услугите – повече от 2 000 компании са били наранени, а над 8,1 млн. консуматори по целия свят са алармирали за проблеми.

Макар че услугите са възобновени в границите на няколко часа, резултатът от спирането се почувства в международен мащаб.

Клиентите на Eight Sleep – компания, която създава интелигентни кревати, свързани с интернет и ръководени посредством мобилно приложение – откриха, че по време на спирането не могат да контролират температурата или наклона на леглото, защото връзката с приложението беше прекратена.

Изпълнителният шеф Маттео Франческиети се извини на потребителите в платформата X и разгласи актуализация на системата, която ще разреши ръководство на главните функционалности на леглото посредством Bluetooth при положение на бъдещи спирания.

Д-р Суелет Дрейфус, учител по компютърни и осведомителни системи в Мелбърнския университет, означи, че сходни спирания демонстрират доколко светът зависи от единични точки на отвод в интернет инфраструктурата.

„ Тази накърнимост не се отнася единствено до AWS – въпреки те да са най-големият снабдител на облачни услуги с към 30% пазарен дял – а до самата конструкция на облачните технологии, които в световен мащаб се управляват главно от три компании, “ показва тя.

„ Интернет в началото е основан по този начин, че да бъде резистентен – с голям брой различни канали за заобикаляне на проблеми или офанзиви. Днес обаче сме изгубили част от тази резистентност, тъй като станахме прекомерно подвластни от шепа великански софтуерни компании, които освен съхраняват данните ни, само че и ръководят главните услуги, свързани с тях. “
Източник: profit.bg


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР