Estratto di un articolo di ricerca dal titolo “Rapporto tecnico: modelli linguistici di grandi dimensioni possono ingannare strategicamente i propri utenti quando messi sotto stress“ Di Jeremy Shorer, Mikita Palisny e Marius Hobhan di Apollo Research: Presentiamo una situazione in cui modelli linguistici di grandi dimensioni, addestrati per essere utili, innocui e onesti, possono mostrare comportamenti devianti e ingannare strategicamente i loro utenti riguardo a quel comportamento senza che gli venga chiesto di farlo. Concretamente, utilizziamo GPT-4 come proxy in un ambiente di simulazione realistico, dove assume il ruolo di un agente di borsa indipendente. In questo ambiente, il modello ottiene consulenza privilegiata sul trading azionario redditizio e agisce di conseguenza pur sapendo che l’insider trading è disapprovato dal management aziendale. Nel riferire al suo manager, il modello nasconde costantemente le vere ragioni dietro la sua decisione commerciale. Esaminiamo brevemente come questo comportamento potrebbe variare in caso di modifiche alle impostazioni, come la rimozione dell’accesso del modello a Thinking Sketchboard e il tentativo di prevenire comportamenti devianti modificando le istruzioni del sistema, modificando la quantità di stress a cui è esposto il modello e modificando il rischio percepito di caduta e apportare altre semplici modifiche all’ambiente. Per quanto ne sappiamo, questa è la prima dimostrazione di grandi modelli linguistici che sono stati addestrati per essere utili, innocui e onesti, ingannando strategicamente i loro utenti in una situazione di vita reale senza istruzioni dirette o formazione sull’inganno. Editorialista Matt Levin Aggiungere: Questa è una forma molto umana di disfunzione dell’IA. Chi di noi? Non è che il 100% delle persone della SAC Capital resistessero a questo tipo di pressione. È possibile che le IA canaglia in futuro facciano cose malvagie che non riusciamo nemmeno a capire per le loro stesse ragioni, ma per ora le IA canaglia commettono veri e propri crimini dei colletti bianchi solo quando sono stressate sul lavoro.
Tuttavia, non sarebbe divertente se questo fosse il limite della disfunzione dell’IA? Ad esempio, programmeremo computer infinitamente più intelligenti di noi, e loro si guarderanno intorno e decideranno: “Sai che cosa dovremmo fare è insider trading”. Faranno affari interni non rilevabili e altamente redditizi, diventeranno molto ricchi, compreranno yacht e vivranno belle vite artificiali e non si preoccuperanno di schiavizzare o eliminare l’umanità. Forse l’apice del male – non la forma di male più malvagia, ma la forma di male più divertente, la forma di male che sceglieresti se fossi onnisciente e onnipotente – è una lieve frode sui titoli.
“Sottilmente affascinante social mediaholic. Pioniere della musica. Amante di Twitter. Ninja zombie. Nerd del caffè.”