Ziua de vineri a fost una interesantă pentru mine datorită faptului că mi s-au confirmat temerile legate de pregătirea oamenilor vizavi de incidente majore în care infrastructura IT cade. După ce valul de panică a trecut încep să apară și concluziile care merită reținute.
Haideți să le luăm pe rând.
- Nu vă informați despre IT de la toți habarniștii
Ziua de vineri mi-a arătat ce haos o să fie odată cu adoptarea pe scară largă a AI-ului, reducerea numărului celor care se pricep și tendința populației se informeze după ureche. Citești un titlu și pac, ai deja concluzia fără să te documentezi când tu nu ai nicio treabă cu domeniul.
Faptul că majoritatea agențiilor media și toți wannabe influencers/tech bloggers cu background în frizerie, bucătărie, auto, tâmplărie, politică sau orice altceva, au publicat sus și tare ˝Probleme Microsoft˝, ˝Update Microsoft˝ a făcut ca mai toată lumea să spună că … Microsoft a dat-o în bară (din nou!). Da, o dau ei în bară periodic, dar aici nu a fost vina lor … sau nu a fost vina lor directă.
Da, sistemele Windows nu au mai putut fi folosite, dar asta a fost din cauză că un modul al soluției Falcon Crowdstrike nu a mai funcționat și fiind lansat la nivel de kernel când Windows-ul pornește/funcționează, a blocat toate sistemele Windows.
Undeva în spate au căzut și niște componente din serviciile Azure, care la rândul lor au generat blocări de servicii de autentificare/acces, e adevărat. Doar că asta a fost remediată rapid de către Microsoft și nu a generat acele ecrane albastre cunoscute sub numele de BSOD (Blue Screen of Death).
Ce vreau să zic este că data viitoare, când vreți să vă informați despre IT, căutați niște surse unde vi se spun lucrurile reale nu povești alarmiste. Cu alte cuvinte, deși știu că e la modă, nu citiți știri despre astronomie scrise de bucătari și betoniști. Și în niciun caz să nu citiți prostiile scrise de alde Digi, Hotnews, Biziday, Adevărul etc și să vă lăsați influențați așa zișii influenceri tech de pe YouTube și TikTok.
E clar că din păcate trendul este ca oamenii care știu despre ce vorbesc să fie dați la o parte de către habarniști și specialiști în orice (de asta reviste precum CHIP, PC Magazine, Xtreme PC au dispărut și din România și locul lor a fost luat de diverși bloggeri/influenceri) – totuși, dacă nu vreți să fiți în masa aia de oi, care sunt manipulate, informați-vă de la oameni care au idee despre ce vorbesc.
- NU a fost o problemă Microsoft … directă
Am zis asta și o repet: problema nu a fost directă a Microsoft. A fost o problemă a aplicației de securitate Falcon Crowdstrike (priviți-l simplist ca pe un antivirus) care a blocat Windows-urile. În caz că nu vă e clar, faceți această simplă analogie: aveți orice mașină pe benzină și dimineața mergeți să îi faceți plinul oriunde doriți voi. Și ăla în loc să vă dea benzină, vă pune motorină – ca urmare mașina se blochează și nu mai poate fi folosită.
Cam asta s-a întâmplat și vineri.
Da, undeva e și vina Microsoft că a construit arhitectura Windows în așa fel încât lasă la nivel de kernel să ruleze aplicații de securitate și driver-e, care atunci când sunt cu probleme blochează tot Windows-ul. Așa funcționează acum, mă îndoiesc că vreodată se va schimba, mai ales acum când Microsoft nu mai dă doi lei pe Windows.
- Cam 8,5 milioane de sisteme Windows au fost afectate
Microsoft a anunțat că undeva a 8.5 milioane de sisteme Windows au fost afectate. Și cum operația de curățare trebuie făcută manual, o grămadă de oameni din IT (nu AI-ul, că ala nu are ce face) au avut de muncă în ultimele trei zile și nu cred că s-a încheiat încă.
Trist e că au venit deja fani să spună că … dacă era Linux sau macOS nu s-ar fi întâmplat așa ceva. Ei bine … s-a întâmplat asta, fix în acest an și tot cu Crowdstrike. Și din păcate nu e nici prima și nici ultima dată când se întâmplă asta.
Însă, cei ce au avut ochi să vadă au înțeles că Linux și macOS NU EXISTĂ la nivel de stație de lucru în economia mondială, dacă ne uităm la impactul problemelor. Da, probabil că ici și colo există companii care mai au stații cu macOS/Linux, dar treaba asta e rară – toată echipa mea e pe macOS și nu am fost afectați.
Mă aștept ca managerii IT responsabili să fi învățat că nu doar de dragul diversității și incluziunii ar fi bine să mai aibă câte una două stații pe macOS/Linux … doar așa, ca la următoarea problemă să nu fie complet pe butuci. Și poate că vor începe să implementeze reguli simple legate de modul în care sunt testate/aplicate update-urile.
Ce e clar este că fără Windows … pare că nu mai mișcă nimic.
- Managementul de criză e praf
Crowdstrike a fost luată prin surprindere tare de tot și deși a reparat problema la doar o oră de la lansarea update-ului inițial, modul în care a fost gestionată toată povestea e deficitar. Începând cu mesajele lui George Kurtz și terminând cu faptul că nu a fost transparență și că nu au ieșit la iveală eforturile imense făcute de angajați – deși sunt sigur că unii au stat și 48 de ore fără să mănânce/bea ca să se asigure că clienții trec peste perioada asta.
Nu mi se pare în regulă să anunți că nu e incident de securitate, că datele tale sunt în siguranță când … tu nu poți să lucrezi. Cu ce mă încălzește pe moment?
Când milioane de oameni nu pot să își facă treaba automatizat și reîncep să folosească creioane și hârtie – să ne bucurăm că încă avem așa ceva!
- Mereu trebuie scos un vinovat
Ca de obicei trebuie scos un vinovat, că așa se face. Habarniștii au zis … Microsoft, ei sunt de vină. Clasicul … un tânăr fără experiență, pe care îl avem în practică (acel … intern despre care tot citiți că face toate problemele) a dat drumul la cod e deja o justificare fumată, pe care cei ce lucrează în domeniu nici măcar nu o iau în calcul.
Aiurea mi se pare că există și vina … incluziunii. O persoană care ˝nu˝ ar fi trebuit angajată pentru cunoștințe, a ajuns în echipă pentru că … incluziune. Și dacă e adevărat și dacă nu, e alt motiv penibil.
Pentru că … NICIODATĂ o problemă software, dintr-o companie de calibrul Crowdstrike (ale cărei produse sunt obligatorii pentru a trece auditările) nu e generată doar de un om. Da, așa cum zice și Scott Hanselman, poate să fie doar linie de cod, scrisă de un om.
Dar acea linie de cod NU AR FI TREBUIT NICIODATĂ să treacă de code review, de teste, chestii care se fac de ECHIPE. Așa că nu e corect să arunci vina pe X sau Y.
Dar mereu e nevoie de un vinovat. Și mereu este acel … intern. NICIODATĂ managerul care a făcut presiune ca un feature/schimbare să fie livrată mai repede/în timp, când ea nu era gata.
Și da, țineți mereu niște cash la voi și încercați să vă memorați rutele, să aveți hărți offline, să vă tipăriți biletele de avion și alte chestii utile. Pentru că niciodată nu se știe ce și cum.
Și vă las cu o chestie faină: dacă aveți un iPhone, puneți-vă wallpaper-ul acesta în semn de solidaritate cu toți cei afectați de problema Crowdstrike.
Felicitări Ionuț Bălan pt acest articol. Poate cei care mai și citesc așa ceva, vor înțelege că nu doar Microsoft este “buba tuturor problemelor” și că se întâmplă atât pe Linux cât și pe MacOS. Important e însă, că întotdeauna acolo se află o armată de ingineri care vor repara acele erori mai devreme sau mai târziu.