Globalni internetski servis Cloudflare očitovao se o jučerašnjem ispadu sistema, koji je doveo do lančane reakcije i ‘srušio pola Interneta’. Na svojim su stranicama objavili detaljno objašnjenje incidenta od 18. novembra.
Značajan prekid rada započeo je u 11:20 (po UTC vremenu) i rezultirao je nedostupnošću velikog broja internetskih stranica i aplikacija. Korisnici koji su pokušavali pristupiti stranicama dobivali su poruke o pogrešci, a iz kompanije su izričito naglasili da problem nije bio uzrokovan nikakvom vrstom kibernetičkog napada ili zlonamjerne aktivnosti.
Problem je potrajao nekoliko sati, a manifestirao se kroz takozvane ‘5xx greške’, što ukazuje na probleme sa serverima. U Cloudflareu su isprva posumnjali na DDoS napad velikih razmjera, no istraga je pokazala da je uzrok ipak bio interni. Glavnina prometa normalizirana je do 14:30 (UTC), dok su svi sistemi u potpunosti profunkcionirali iza 17 sati.
Do prekida je, kažu, došlo zbog promjene u dozvolama jednog od sistema baza podataka, što je dovelo do generiranja neispravne konfiguracijske datoteke za sistem upravljanja botovima (Bot Management). Ta datoteka, koja se koristi za razlikovanje legitimnog od automatiziranog prometa, zbog pogreške se udvostručila. Softver zadužen za usmjeravanje prometa, koji koristi tu datoteku, imao je postavljeno ograničenje veličine koje je time premašeno, što je uzrokovalo njegovo rušenje i kaskadni pad brojnih stranica i aplikacija koje Cloudflare štiti – pa, ironijom sudbine, čak i sistema Downdetector, na koji mnogi odmah pohrle provjeriti o čemu je riječ kad neki od internetskih servisa padne.
Dodatno je zanimljivo da se problem pojavljivao u intervalima od pet minuta, jer se konfiguracijska datoteka generirala periodično. Ovisno o tome koji je dio baze podataka obradio upit, datoteka je ponekad bila ispravna, a ponekad neispravna, što je dovodilo do fluktuacija u radu sistema i dodatno otežalo dijagnostiku problema.
Nakon što je identificiran osnovni uzrok, inženjeri Cloudflarea zaustavili su distribuciju neispravne datoteke i ručno je zamijenili prethodnom, ispravnom verzijom. To je omogućilo postupan oporavak sistema.
Matthew Prince, suosnivač i generalni izvršni direktor Cloudflarea, izvinuo se korisnicima zbog problema, nazvavši ga najgorim prekidom rada od 2019. godine, prenosi Bug.hr. Najavio je korake za jačanje otpornosti sistema, otkrivši da planiraju uvesti strože kontrole za interno generirane konfiguracijske datoteke, omogućiti brže globalno isključivanje pojedinih funkcionalnosti te analizirati sve module kako bi se spriječili slični scenariji u budućnosti.
Cloudflare objasnio incident: Jedna prevelika datoteka uzrokovala lančanu reakciju
Zbog interne pogreške u Bot Management sistemu, Cloudflare je u utorak imao višesatni prekid rada koji je pogodio brojne korisnike i servise diljem svijeta, a nije bio posljedica hakerskog napada
















