Gli esseri umani sono capaci di comportamenti strategicamente ingannevoli: si comportano in modo utile nella maggior parte delle situazioni, per poi comportarsi in modo molto diverso per perseguire obiettivi alternativi quando ne hanno l’opportunit\u00e0. Se un sistema di intelligenza artificiale apprendesse una strategia cos\u00ec ingannevole, potremmo rilevarla e rimuoverla utilizzando le attuali tecniche di addestramento sulla sicurezza? Per studiare questa domanda, costruiamo esempi di comportamento ingannevole in modelli linguistici di grandi dimensioni (LLM). Per esempio, addestriamo modelli che scrivono codice sicuro quando il prompt<\/em> indica che l’anno \u00e8 il 2023, ma inseriscono codice sfruttabile quando l’anno indicato \u00e8 il 2024. Troviamo che tale backdoor<\/em> pu\u00f2 essere resa persistente, in modo che non venga rimosso dalle tecniche usuali sulla formazione sulla sicurezza, tra cui la messa a punto supervisionata, l’apprendimento di rinforzo e la formazione contraddittoria (induzione di comportamenti non sicuri e quindi formazione per rimuoverli). Questo comportamento “nascosto” \u00e8 pi\u00f9 persistente nei modelli pi\u00f9 grandi e nei modelli addestrati a produrre ragionamenti basati su catene di pensiero volte a ingannare il processo di formazione, la cui persistenza rimane anche quando la catena di pensiero viene rimossa. Inoltre, invece di rimuovere le backdoor<\/em>, scopriamo che l’addestramento contraddittorio pu\u00f2 insegnare ai modelli a riconoscere meglio i fattori scatenanti delle backdoor<\/em>, nascondendo di fatto il comportamento non sicuro. I nostri risultati suggeriscono che, una volta che un modello mostra un comportamento ingannevole, le tecniche standard<\/em> potrebbero non riuscire a rimuovere tale inganno e creare una falsa impressione di sicurezza.<\/p><\/blockquote>\n