Întreruperea masivă a serviciilor cloud Google recent a fost provocată de o problemă de gestionare a API-urilor. Întreruperea nu a fost o problemă legată de internet în sine. Nu au fost raportate probleme cu sistemul de nume de domeniu (DNS) sau cu protocolul Border Gateway Protocol (BGP). Traficul pe internet se desfășura normal.
Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -
Google a afirmat că o problemă de gestionare a API-urilor se află la originea întreruperii masive a serviciilor Google Cloud de joi, care a perturbat sau a întrerupt serviciile sale și multe alte platforme online, potrivit BleepingComputer.
Google a afirmat că întreruperea serviciilor cloud a început în jurul orei 10:49 ET și s-a încheiat la ora 15:49 ET, după ce a cauzat probleme pentru milioane de utilizatori din întreaga lume timp de peste trei ore. Pe lângă Google Cloud, incidentul a afectat și Gmail, Google Calendar, Google Chat, Google Cloud Search, Google Docs, Google Drive, Google Meet, Google Tasks, Google Voice, Google Lens, Discover și Voice Search.
Pe lângă acestea, a cauzat și probleme pe scară largă pentru platformele partenere care se bazează pe Google Cloud, inclusiv, dar fără a se limita la Spotify, Discord, Snapchat, NPM, Firebase Studio și un număr limitat de servicii Cloudflare care se bazează pe magazinul de valori-cheie Workers KV.
„Ne pare foarte rău pentru impactul pe care această întrerupere a serviciului l-a avut asupra tuturor utilizatorilor noștri și a clienților acestora. Companiile mari și mici au încredere în Google Cloud pentru sarcinile lor de lucru și vom face mai bine”, a declarat Google.
În timp ce încă lucrează la publicarea unui raport complet al incidentului, Google a dezvăluit astăzi cauza principală a creșterii numărului de erori 503 în solicitările API externe în timpul întreruperii de trei ore de ieri. După cum a explicat astăzi compania, platforma sa de gestionare a API-urilor Google Cloud a eșuat din cauza unor date nevalide, o problemă care nu a fost descoperită și remediată prompt, deoarece nu dispunea de sisteme eficiente de testare și gestionare a erorilor.
„Din analiza inițială, problema a apărut din cauza unei actualizări automate nevalide a cotelor în sistemul de gestionare API, care a fost distribuită la nivel global, ceea ce a dus la respingerea cererilor API externe. Pentru a remedia problema, am ocolit verificarea cotelor defectuoase, ceea ce a permis recuperarea în majoritatea regiunilor în decurs de 2 ore”, a adăugat compania. „Cu toate acestea, baza de date a politicii de cote din us-central1 a devenit supraîncărcată, ceea ce a dus la o recuperare mult mai lungă în acea regiune. Mai multe produse au avut un impact rezidual moderat (de exemplu, întârzieri) timp de până la o oră după atenuarea problemei principale, iar un număr mic s-a recuperat după aceea.”
Serviciile Cloudflare au fost întrerupte de problemele Google Cloud
După restabilirea cu succes a propriilor servicii afectate, Cloudflare a dezvăluit într-un raport ulterior că incidentul de joi nu a fost cauzat de un incident de securitate și că nu s-au pierdut date.
„Cauza acestei întreruperi a fost o defecțiune a infrastructurii de stocare utilizate de serviciul nostru Workers KV, care este o dependență critică pentru multe produse Cloudflare și pe care se bazează configurarea, autentificarea și livrarea de active în cadrul serviciilor afectate”, a declarat Cloudflare.
„O parte din această infrastructură este susținută de un furnizor de servicii cloud terț, care a suferit astăzi o întrerupere și a afectat în mod direct disponibilitatea serviciului nostru KV.”
Ca răspuns la acest incident, Cloudflare afirmă că va migra magazinul central KV către propriul spațiu de stocare de obiecte R2 pentru a reduce dependența externă și a preveni probleme similare în viitor.
Ce puteți face când se produce o altă întrerupere a serviciilor cloud
Dacă vă întrebați ce poate face compania dumneavoastră pentru a vă ușura viața atunci când se va produce o altă întrerupere majoră a serviciilor cloud, oricât de tentant ar fi să vă mutați serviciile în interiorul companiei, trebuie să vă întrebați: „Pot egala serviciile cloud majore – AWS, Azure și Google Cloud – cu un timp de funcționare de 99,99%?” Probabil că nu.
Ceea ce puteți face este să distribuiți sarcinile de lucru între mai mulți furnizori de servicii cloud, de exemplu, multi-cloud, sau să combinați cloud-urile publice și private, cunoscute și sub denumirea de cloud-uri hibride. Acest lucru reduce riscul de a depinde de un singur furnizor și permite comutarea automată în cazul în care un serviciu de cloud suferă o întrerupere.
Nu este suficient să utilizați un cloud multi-cloud sau hibrid. Trebuie să automatizați un plan de recuperare în caz de dezastru (DRP – disaster recovery plan) care să se activeze atunci când furnizorul principal de servicii cloud întâmpină probleme. Acest lucru poate fi la fel de simplu ca o copie de rezervă în timp real a datelor sau o comutare completă.
Dacă nu aveți expertiza tehnică necesară în cadrul companiei dumneavoastră pentru a crea un DRP, există companii care vă pot ajuta să îl configurați și să îl gestionați. Dacă firma se bazează pe servicii cloud pentru a-și desfășura activitatea, este recomandat să discutați cu una sau mai multe dintre aceste companii pentru a vă asigura că puteți continua să funcționați chiar și în cazul unei întreruperi majore a serviciului cloud.