Gli esseri umani sono capaci di comportamenti strategicamente ingannevoli: si comportano in modo utile nella maggior parte delle situazioni, per poi comportarsi in modo molto diverso per perseguire obiettivi alternativi quando ne hanno l’opportunità. Se un sistema di intelligenza artificiale apprendesse una strategia così ingannevole, potremmo rilevarla e rimuoverla utilizzando le attuali tecniche di addestramento sulla sicurezza? Per studiare questa domanda, costruiamo esempi di comportamento ingannevole in modelli linguistici di grandi dimensioni (LLM). Per esempio, addestriamo modelli che scrivono codice sicuro quando il prompt indica che l’anno è il 2023, ma inseriscono codice sfruttabile quando l’anno indicato è il 2024. Troviamo che tale backdoor può essere resa persistente, in modo che non venga rimosso dalle tecniche usuali sulla formazione sulla sicurezza, tra cui la messa a punto supervisionata, l’apprendimento di rinforzo e la formazione contraddittoria (induzione di comportamenti non sicuri e quindi formazione per rimuoverli). Questo comportamento “nascosto” è più persistente nei modelli più grandi e nei modelli addestrati a produrre ragionamenti basati su catene di pensiero volte a ingannare il processo di formazione, la cui persistenza rimane anche quando la catena di pensiero viene rimossa. Inoltre, invece di rimuovere le backdoor, scopriamo che l’addestramento contraddittorio può insegnare ai modelli a riconoscere meglio i fattori scatenanti delle backdoor, nascondendo di fatto il comportamento non sicuro. I nostri risultati suggeriscono che, una volta che un modello mostra un comportamento ingannevole, le tecniche standard potrebbero non riuscire a rimuovere tale inganno e creare una falsa impressione di sicurezza.
Quello di oggi è un genere di post che spesso ho scritto su DropSea, l’abstract di un articolo scientifico o, come in questo caso, di un pre-print((Per pre-print si intende un articolo scientifico pubblicato su un archivio, come arXiv, prima che questo venga effettivamente pubblicato su una rivista. Generalmente l’articolo è pubblicato su un archivio di questo genere per sottomettere lo stesso senza la necessità di mandare alcun file, ma limitandosi al semplice link. In altri casi, invece, il pre-print viene pubblicato nell’archivio dopo la sottomissione o, nei casi più rari, dopo la pubblicazione, generalmente su rivista ad accesso chiuso, dove cioé bisogna pagare un abbonamento per leggere gli articoli.)), che o lascio non tradotto, aggiungendo spesso due righe di commento, o traducendolo senza ulteriori discussioni a parte l’ovvia indicazione dell’originale. In questo caso, se vogliamo, il commento è la striscia di vignette tratte da Avengers #55 del 1968 di Roy Thomas e John Buscema in cui Ultron si rivela a uno spaesato Jarvis, e che mi sembra particolarmente calzante (anche se forse un po’ troppo ansiogena allo stato attuale delle ricerche) con l’articolo Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training, il cui principale successo, anche se non reso esplicito, è quello di mostrare come gli algoritmi di intelligenza artificiale siano oggi in grado di riprodurre in maniera molto simile i processi della mente umana (e quindi Ultron è molto più umano di quel che gli piace credere!).
L’immagine di apertura, invece, è un estratto della copertina di Avengers #67.