Skip to content

Hot mot AI-system: AI poisoning (Del 1)

Vad finns det egentligen för hot mot AI-system? Det funderade vi också på, vilket resulterade i denna tudelade bloggserie där vi utforskar olika typer av sådana hotbilder. I första delen fokuserar vi på AI poisoning1, en attackmetod som använder s.k. förgiftade träningsdata för att manipulera en AI-modell. Vi undersöker hotbilden närmare för att förstå hur attacken fungerar och varför den utförs, men även de åtgärder som kan vidtas för att förebygga konsekvenserna av sådana attacker.

I nästa del i bloggserien kommer vi att undersöka ett annat hot mot AI, prompt injection-attacker som sker när AI väl används. Genom att uppmärksamma och bättre förstå hotbilden kan vi på ett mer effektivt sätt vidta åtgärder för att skydda våra AI-system.

AI poisoning, eller AI-förgiftning, sker när en angripare injicerar skadlig eller skadade data i träningsdata i syfte att få en AI-modell att framställa felaktiga resultat eller försämra dess övergripande prestanda. Problemet är ett bland flera för verkliga AI-tillämpningar som behöver hanteras mycket medvetet när det berör människor eller på annat sätt kan få kännbara konsekvenser.

AI poisoning utgör inte bara ett hot i det civila samhället, utan i takt med att användningen av AI blir allt vanligare uppstår samma problematik i t.ex. militära sammanhang. I en rapport från Totalförsvarets forskningsinstitut (FOI) granskas förekomsten av AI poisoning genom att undersöka bildigenkänningstekniker som används för att felklassificera bilder i datamodeller. I ett belysande exempel förgiftas modeller som används för att klassificera bilder som antingen "stridsvagn" eller "bil" under träningsprocessen genom att manipulera träningsdata och få modellen att felklassa stridsvagnar som bilar.2 AI poisoning är på så vis en risk med all maskininlärning, och är något som man behöver vara medveten om och hantera när man tränar algoritmer.

Hur AI poisoning fungerar

En angripare behöver först få tillgång till datamängden som används för att träna AI-modellen. Angriparen börjar därefter manipulera dessa data genom att t.ex. lägga till, ändra eller ta bort datapunkter. Detta kan introducera s.k. outlier data som är avvikande nog att påverka modellens inlärningsprocess eller infoga felaktiga etiketter i klassificeringsuppgifter som t.ex. får modellen att lära sig fel samband. På grund av de manipulerade data kommer modellen att utveckla felaktiga slutledningar och bias, vilket påverkar dess slutliga beteende och utdata. Effekten av en AI poisoning-attack beror på många faktorer, bl.a. hur stor andel av data som är infekterad och vilka modeller som tränas. Rapporten från FOI belyser ett exempel där AI poisoning-attacker kan förändra träffsäkerheten med allt från några enstaka procentenheter upp till ungefär 90 procentenheter.3 Hur mycket träffsäkerheten förändras beror på hur väl AI poisoning-attacken anpassats för ifrågavarande dataset och AI-modell.

Ett annat hot – som på många sätt påminner om AI poisoning – är scenariot där en antagonist bara förändrar ordningen på data i stället för att manipulera själva datasetet. I dagsläget är effekterna av denna typ av intrång mindre i jämförelse med AI poisoning men vi vill passa på att uppmärksamma läsaren om detta hot och att även det kan få betydelse i utveckling och användning av AI-system.

Syfte med attacken

En huvudsaklig anledning till att genomföra en AI poisoning-attack är strävan efter att minska tillförlitligheten och precisionen hos AI-modellen. Detta kan vara av intresse för t.ex. konkurrenter eller illvilliga aktörer som ser ett mervärde i att minska förtroendet för en viss tjänst. Angripare kan också sikta på att introducera specifika fördomar eller bias i AI-modellen. Genom att göra detta kan de få modellen att föra sig på ett förutbestämt sätt under specifika förhållanden, vilket kan vara fördelaktigt t.ex. vid manipulering av automatiserade processer. Därutöver kan AI poisoning användas för att faktiskt sabotera system och därmed eliminera dem, något som kan få allvarliga säkerhetsmässiga och ekonomiska följder. Detta kan innebära att t.ex. skapa ineffektivitet hos säkerhetssystem som övervakningskameror eller fraud detection-system.

Förebyggande åtgärder

Det ska sägas att det (i dagsläget) är svårt att vidta effektiva åtgärder mot risker i komplexa AI-system utan att införa mänsklig kontroll av data, vilket i sig hämmar själva poängen med att utveckla och använda AI-system. Med det sagt kan följande grundläggande principer och tekniker beaktas för att motverka sådana attacker:

  1. Validering av datakällor: Var noggrann med varifrån träningsdata hämtas. Använd pålitliga och säkra källor för att minska risken för att skadliga data inkluderas i träningsdatamängden.

  2. Datarensning: Genomgå och rensa träningsdata regelbundet för att identifiera och ta bort potentiellt skadlig eller felaktig information innan den används för att träna AI-modeller.

  3. Motståndskraftiga algoritmer: Använd och utveckla algoritmer som är motståndskraftiga mot förgiftade data. Detta kan innebära tekniker som outlier-detektion där data som avviker från normen kan flaggas och granskas innan den används.

  4. Användning av flera datakällor: För att förhindra att systemet blir beroende av en enskild datakälla som kan vara förgiftad bör data integreras från många olika källor.

  5. Kontinuerlig övervakning: Övervaka prestandan hos AI-system kontinuerligt för att snabbt kunna identifiera avvikelser som kan tyda på att en förgiftning har skett. Detta inkluderar övervakning både under träning och när AI-systemet väl är i användning.

  6. Transparens och återkoppling: Skapa system där användare och experter kontinuerligt kan ge feedback på AI-systemens beslut. Detta kan förbättra förutsättningarna för att snabbt upptäcka och korrigera fel som kan ha orsakats av förgiftade data.

  7. Juridiska och etiska riktlinjer: Viktigt med implementation och efterlevnad av regleringen avseende användningen av data och AI. Detta inkluderar bl.a. dataskyddslagstiftning (inkl. GDPR) vad gäller behandlingen av personuppgifter men även övrig säkerhet och sekretess för de data som används för att träna AI.

Slutsats

AI poisoning och dess följder är en hotbild som behöver beaktas i samband med utvecklingen och användningen av AI-system, särskilt vad gäller maskininlärning. Det kan konstateras att det i nuläget är svårt att i teknisk väg eliminera sådana hot. En god medvetenhet om risken är en grundförutsättning för större tillit till och aktivt arbete med tillgängliga träningsdata samt testning för att verifiera att systemet uppträder som förväntat. Förutom behovet av proaktiv kvalitetssäkring bör som alltid regelverk och riktlinjer efterlevas. För att även i fortsättningen kunna lita på AI-system och dess utdata krävs det att kontrollåtgärder implementeras i syfte att säkerställa fortsatt hög datakvalitet och tillförlitlighet.

Fotnoter

1: Några ord om artistisk frihet vad gäller språkbruk: I den utsträckning som författarna anser att den svenska översättningen inte är rättvisande (eller ens befintlig) kommer engelsk terminologi att användas i inläggen. Centralt är såklart att läsaren förstår innehållet men också ges möjlighet att på egen hand hitta ytterligare information med hjälp av relevanta sökord som presenteras i texten.

2: Attacking and Deceiving Military AI Systems (sv. Angrepp och vilseledning av militära AI-system). FOI-R--5396--SE. s. 16ff.

3: FOI-R--5396--SE. s. 20f. 

Författarna

Oskar Edbro (CISSP) är senior säkerhetskonsult med fokus på säkerhet i utvecklingsorganisationer. Med ena foten i tekniken och andra i verksamhetsnyttan arbetar han med att överbrygga gapet mellan tekniska- och verksamhetsrisker. 

Jannika Törnqvist (CIPP/e, CIPT & FIP) är senior jurist med särskilt fokus på dataskydd och digitalisering. Hon har erfarenhet av mångsidigt juridiskt arbete i olika roller, både som bolagsjurist och som extern rådgivare, och stöttar ofta verksamheter i egenskap av externt dataskyddsombud (DSO/DPO).