Problem je poznat kao tiha korupcija podataka (SDC) - fenomen u kojem hardverski nedostaci uzrokuju da programi proizvode netačne rezultate bez rušenja, izazivanja greške ili ostavljanja bilo kakvog vidljivog traga.

U centru zabrinutosti su silicijumski nedostaci u CPU-ima, GPU-ima i AI akceleratorima. Ovi nedostaci mogu nastati tokom dizajna čipa, proizvodnje ili se čak razviti kasnije zbog starenja ili činioca okoline. Dok proizvođači provjeravaju većinu grešaka, čak i najrigoroznije testiranje proizvodnje može otkriti samo procijenjenih 95 do 99 odsto modeliranih nedostataka. Neki neispravni čipovi neizbježno dospiju na teren.

U određenim slučajevima, ti nedostaci dovode do vidljivih kvarova poput rušenja sistema. Ali više zabrinjavaju tihe greške. Ovdje neispravan logički ulaz ili aritmetička jedinica mogu proizvesti pogrešnu vrijednost tokom izvršavanja. Ako se ta vrijednost širi kroz program bez pokretanja mehanizama detekcije, sistem dovršava zadatak i vraća netačan izlaz - bez ikakve naznake da je nešto pošlo po zlu.

Decenijama su mnogi vjerovali da su SDC-ovi rijetki, gotovo mitski događaji. Međutim, veliki hiperskalirajući operateri, uključujući Metu, Google i Alibabu, otkrili su da otprilike jedan od 1000 CPU-a u njihovim flotama može proizvesti tihe greške pod određenim uslovima. Slične zabrinutosti zabilježene su i kod GPU-ova i AI akceleratora.

Ispravnost je temeljno svojstvo računarstva. Bez obzira obrađuju li finansijske transakcije, izvršavaju AI inferenciju ili upravljaju infrastrukturom, od sistema se očekuje da daju tačne rezultate unutar strogih vremenskih ograničenja.

Tiha greška potkopava to povjerenje. Za razliku od rušenja, koja su odmah vidljiva i podstiču istragu, SDC-ovi tiho mijenjaju izlaze. U podatkovnim centrima koji rade s milionima jezgri, čak i mala stopa grešaka može se pretvoriti u stotine netačnih rezultata programa dnevno.

Obim modernog računarstva pojačava problem

Masivne paralelne arhitekture poput GPU-ova i AI akceleratora sadrže hiljade aritmetičkih jedinica. Što više komponenti sistem uključuje, veća je statistička vjerovatnoća da će neke biti neispravne.

Direktno mjerenje SDC-a gotovo je nemoguće - po definiciji su tihi. Stoga industrija mora procijeniti njihove stope i izvagati troškove prevencije. Mehanizmi za otkrivanje i ispravljanje postoje, ali mogu značajno povećati površinu silicijuma, potrošnju energije i opšte troškove performansi.

Istraživači pozivaju na višeslojna rješenja, uključujući poboljšane proizvodnih testova, praćenje na nivou flote u podatkovnim centrima, pametnije modele procjene grešaka i pristupe zajedničkom dizajnu hardvera i softvera koji sadrže greške prije nego što se prošire.

Kako računarski sistemi rastu veći i brži, izazov je jasan: održati i brzinu i ispravnost bez neodrživih troškova. U onome što neki opisuju kao "zlatno doba složenosti", osiguravanje da računarstvo ostane pouzdano moglo bi postati jedna od definišućih inženjerskih bitaka u industriji, prenosi "DigitalTrends".