„Дълбоко съжаляваме“: Google публикува мини доклад за инцидента, който срина половината интернет
Гугъл разгласява „ мини отчет за случай “ в своята платформа за облачни услуги, който през вчерашния ден докара до спиране на работата на няколко съществени услуги, в това число Spotify, Discord, Snapchat, OpenAI, както и на услуги на самия колос за търсене.
„ Дълбоко съжаляваме за въздействието, което този пробив/прекъсване на услугата аргументи на всички наши консуматори и техните клиенти. Големи и дребни компании се доверяват на Гугъл Cloud за своите работни натоварвания и ние ще се оправим по-добре. През идващите дни ще публикуваме цялостен отчет за случая с повода, обстоен график и надеждни коригиращи дейности, които ще предприемем. Предвид мащаба и въздействието на този случай, бихме желали да предоставим известна информация по-долу. “
се споделя в изказването на компанията
Според формалните лица случаят е зародил в 10:49 ч. тихоокеанско време (21:49 ч. българско време) на 12 юни, а работата на всички системи е възобновена тъкмо три часа по-късно, в 13:39 ч. (на 13 юни 0:49 ч. българско време). Прекъсването е засегнало системите на Гугъл по целия свят. Основният признак на казуса беше внезапното увеличение на отговора „ неточност 503 “ в няколко продукта на Гугъл Cloud и Гугъл Workspace за външни поръчки към API.
„ Според първичния ни разбор казусът е породен от невалидна актуализация на автоматизираната квота в нашата система за ръководство на API, която се популяризира в международен мащаб и провокира срив при осъществяване на външни API поръчки. За да възстановим работата, активирахме заобикаляне на инспекцията на квотите, което възвърне работата в множеството райони в границите на два часа. Базата данни на политиката за квотите в район us-central1 обаче беше претрупана, което докара до доста по-дълго възобновяване в този район. Няколко продукта имаха умерени остатъчни резултати (напр. неизпълнени задачи) в продължение на един час след отстраняването на главния проблем и по-късно настъпи отчасти възобновяване. “
се споделя в систематизирания отчет
За да се предотвратят сходни повреди в бъдеще, компанията се ангажира да предприеме следните стъпки:
да предотврати сривове на платформата за ръководство на API заради развалени данни; да предотврати световното разрастване на метаданни без подобаваща отбрана, тестване и мониторинг; да усъвършенства обработката на систематични неточности и цялостното тестване за ръководство на развалени данни.




