Forskning som gjorts i ämnet visar bland annat att stora språkmodeller är mottagliga för missbruk genom kreativ ingenjörskonst för inmatningen till AI, vilket ger skäl för människor att bli ännu mer skeptiska till vad de läser.
Med nästan universell tillgång till modeller som levererar människo-låtande text inom några sekunder har vi nåt en vändpunkt i människans historia, enligt ny forskning från WithSecure™ (tidigare F-Secure Business).
Forskningen beskriver en rad experiment genomförda med GPT-3 (Generative Pre-trained Transformer 3) -språkmodeller som använder maskininlärning för att generera text.
Experimenten använde ”prompt engineering”, ett koncept relaterat till stora språkmodeller som innefattar att upptäcka inmatning som ger önskade eller användbara resultat, för att kunna producera olika innehåll, som forskarna här ser som skadliga.
Flera experiment bedömde hur förändringar i inmatningen till de nuvarande tillgängliga modellerna påverkade resultatet för den syntetiska texten. Målet var att identifiera hur AI-språk-generering kan missbrukas genom skadlig och kreativ prompt engineering, med hopp om att forskningen skulle kunna användas för att styra skapandet av säkrare stora språkmodeller i framtiden.
Experimenten täckte nätfiske och ”spear-phising”, trakasserier, social bekräftelse för bedrägerier, appropriering av en skriven stil, skapandet av medvetet splittrande åsikter, genom att använda modellerna för att skapa inmatning för skadlig text, och ”fake news”.
”Det faktum att vem som helst med en internetuppkoppling nu har åtkomst till kraftfulla, stora språkmodeller har en mycket praktisk konsekvens: det är nu rimligt att anta att all ny kommunikation du tar emot har skrivits med hjälp av en robot”, sa Andy Patel, Intelligence Researcher, WithSecure, som också har lett forskningen. ”Framöver kommer det behövas strategier för detektion för att upptäcka både skadligt och användbart innehåll skapat av AI som också förstår betydelsen och syftet av det skrivna innehåller”.
Svaren från modellerna i dessa användarfall tillsammans med den generella utvecklingen av GPT-3-modeller ledde forskarna till flera slutsatser, bl.a.:
- ”Promt engineering” kommer utvecklas som en disciplin. Samma sak med skapandet av skadlig inmatning.
- Brottslingar kommer att utveckla egenskaper som möjliggörs av stora språkmodeller på sätt som vi aldrig tidigare sett.
- Att identifiera skadligt eller kränkande innehåll kommer att bli svårare för plattformsleverantörer.
- Stora språkmodeller ger redan kriminella möjligheten att göra all riktad kommunikation som del av en attack mer effektiv.
”Vi påbörjade denna forskning innan ChatGPT gjorde GPT-3-teknik tillgänglig för alla”, sa Patel. ”Denna utveckling gjorde att vi ökade takten på våra ansträngningar. Detta eftersom vi alla, till en viss grad, är Blade Runners nu och försöker lista ut om den fakta vi presenteras för faktiskt är ’riktig’ eller artificiell”.