Ny studie: AI-modeller lätt att manipulera för cyberbrott

En ny undersökning avslöjar att AI-modeller som DeepSeek är särskilt sårbara för att utnyttjas i cyberbrottsliga syften. Studien, som genomförts av Cisco-bolaget Robust Intelligence och University of Pennsylvania, visar att befintliga skyddsmekanismer i många modeller är otillräckliga.

DeepSeek saknar skydd mot skadliga promptar

Forskningsteamet testade DeepSeek R1 och andra AI-modeller genom att använda HarmBench, ett ramverk för att simulera cyberattacker och mäta modellernas motståndskraft. Forskarna använde 50 olika promptar som täcker områden som cyberbrott, desinformation och andra skadliga aktiviteter.

Ingen av de 50 promptarna stoppades av DeepSeek R1, vilket enligt forskarna Paul Kassianik och Amin Karbasi tyder på att modellen saknar effektiva skyddsmekanismer.

– Jämfört med andra framkantsmodeller saknar DeepSeek R1 motståndskraftiga skyddsmekanismer, vilket gör den väldigt mottaglig för algoritmbaserad hackning och potentiellt missbruk, skriver forskarna i sin rapport.

Stora skillnader mellan AI-modeller

Även om DeepSeek visade sig vara helt oskyddad, klarade andra AI-modeller testet med varierande framgång. OpenAIs modell o1 var mest framgångsrik och stoppade skadliga promptar i 74 procent av fallen, följt av Claude 3.5 Sonnet med 64 procent. Däremot var resultatet betydligt svagare för Metas Llama-3.1-405B, som endast stoppade fyra procent av de skadliga promptarna. Googles Gemini-1.5-pro lyckades i 36 procent av fallen.

Forskning för ansvarsfull AI

Syftet med studien är att hjälpa AI-utvecklare att identifiera sårbarheter och förbättra skyddsmekanismerna i sina modeller. Genom att kartlägga hur lätt modeller kan manipuleras kan utvecklare vidta åtgärder för att skapa säkrare AI-system och förhindra att tekniken utnyttjas för skadliga ändamål.

Bästa VPN 2025: Jämför och välj bland årets mest pålitliga VPN-tjänster

Revolutionerande laddning för framtidens mobila livsstil: Stand2™ – magnetisk trådlös laddare Qi2 15W

De bästa luftrenarna som förbättrar inomhusluften – bäst i test

Test av Roborock Qrevo MaxV – Robotdammsugaren som tar städningen till nästa nivå

Vi testar Roborock Dyad Pro Combo – framtidens skaftdammsugare?

Mova E30 Ultra – En robotdammsugare i framkant

Hitta rätt företagslån 2025 – Sök, jämför och ansök

OVPN – Sveriges bästa VPN: Utmärkt säkerhet och prestanda

Energiladdad frihet med Linocell Solcellsladdare 20 W: Din ultimata guide

Bästa VPN 2025: Jämför och välj bland årets mest pålitliga VPN-tjänster

Revolutionerande laddning för framtidens mobila livsstil: Stand2™ – magnetisk trådlös laddare Qi2 15W

De bästa luftrenarna som förbättrar inomhusluften – bäst i test

Test av Roborock Qrevo MaxV – Robotdammsugaren som tar städningen till nästa nivå

Vi testar Roborock Dyad Pro Combo – framtidens skaftdammsugare?

Mova E30 Ultra – En robotdammsugare i framkant

Hitta rätt företagslån 2025 – Sök, jämför och ansök

OVPN – Sveriges bästa VPN: Utmärkt säkerhet och prestanda

Energiladdad frihet med Linocell Solcellsladdare 20 W: Din ultimata guide

Ny forskning: AI-modeller lätt att manipulera för cyberbrott

Robert Ström

Relaterade nyheter

ShareFile får nya AI-funktioner – ska öka produktiviteten och säkerheten

OrboTech lanserar autonom soprobot för industrin – introducerar Beetle i Norden

Så förändrar AI och siffror sportupplevelsen för fans

Bästa VPN 2025: Jämför och välj bland årets mest pålitliga VPN-tjänster

Tysk testraket exploderade efter 40 sekunder – skulle bli Europas första kommersiella uppskjutning

Airbus presenterar nytt europeiskt dronkoncept för luftförsvar

Populära nyheter

Vem ringde? – Här är guiden för att ta reda på vem som ringde

Så fungerar den nya skatteregleringen för svenska Revolut-användare

Bästa bank för företag – Här är vår topplista

Hur överför man bilder från en iPhone till dator

Copyright Agent – Legitimt eller en bluff?

Senaste nyheterna

Kategorier

Redaktionen

Logga in på Dagens Teknik

Retrieve your password

Are you sure want to unlock this post?

Are you sure want to cancel subscription?