En ny undersökning avslöjar att AI-modeller som DeepSeek är särskilt sårbara för att utnyttjas i cyberbrottsliga syften. Studien, som genomförts av Cisco-bolaget Robust Intelligence och University of Pennsylvania, visar att befintliga skyddsmekanismer i många modeller är otillräckliga.
DeepSeek saknar skydd mot skadliga promptar
Forskningsteamet testade DeepSeek R1 och andra AI-modeller genom att använda HarmBench, ett ramverk för att simulera cyberattacker och mäta modellernas motståndskraft. Forskarna använde 50 olika promptar som täcker områden som cyberbrott, desinformation och andra skadliga aktiviteter.
Ingen av de 50 promptarna stoppades av DeepSeek R1, vilket enligt forskarna Paul Kassianik och Amin Karbasi tyder på att modellen saknar effektiva skyddsmekanismer.
– Jämfört med andra framkantsmodeller saknar DeepSeek R1 motståndskraftiga skyddsmekanismer, vilket gör den väldigt mottaglig för algoritmbaserad hackning och potentiellt missbruk, skriver forskarna i sin rapport.
Stora skillnader mellan AI-modeller
Även om DeepSeek visade sig vara helt oskyddad, klarade andra AI-modeller testet med varierande framgång. OpenAIs modell o1 var mest framgångsrik och stoppade skadliga promptar i 74 procent av fallen, följt av Claude 3.5 Sonnet med 64 procent. Däremot var resultatet betydligt svagare för Metas Llama-3.1-405B, som endast stoppade fyra procent av de skadliga promptarna. Googles Gemini-1.5-pro lyckades i 36 procent av fallen.
Forskning för ansvarsfull AI
Syftet med studien är att hjälpa AI-utvecklare att identifiera sårbarheter och förbättra skyddsmekanismerna i sina modeller. Genom att kartlägga hur lätt modeller kan manipuleras kan utvecklare vidta åtgärder för att skapa säkrare AI-system och förhindra att tekniken utnyttjas för skadliga ändamål.