{"id":4680,"date":"2024-02-01T22:06:24","date_gmt":"2024-02-01T21:06:24","guid":{"rendered":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/?p=4680"},"modified":"2024-02-01T22:06:25","modified_gmt":"2024-02-01T21:06:25","slug":"comportamento-strategicamente-ingannevole","status":"publish","type":"post","link":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/comportamento-strategicamente-ingannevole\/","title":{"rendered":"Comportamento strategicamente ingannevole"},"content":{"rendered":"

Gli esseri umani sono capaci di comportamenti strategicamente ingannevoli: si comportano in modo utile nella maggior parte delle situazioni, per poi comportarsi in modo molto diverso per perseguire obiettivi alternativi quando ne hanno l’opportunit\u00e0. Se un sistema di intelligenza artificiale apprendesse una strategia cos\u00ec ingannevole, potremmo rilevarla e rimuoverla utilizzando le attuali tecniche di addestramento sulla sicurezza? Per studiare questa domanda, costruiamo esempi di comportamento ingannevole in modelli linguistici di grandi dimensioni (LLM). Per esempio, addestriamo modelli che scrivono codice sicuro quando il prompt<\/em> indica che l’anno \u00e8 il 2023, ma inseriscono codice sfruttabile quando l’anno indicato \u00e8 il 2024. Troviamo che tale backdoor<\/em> pu\u00f2 essere resa persistente, in modo che non venga rimosso dalle tecniche usuali sulla formazione sulla sicurezza, tra cui la messa a punto supervisionata, l’apprendimento di rinforzo e la formazione contraddittoria (induzione di comportamenti non sicuri e quindi formazione per rimuoverli). Questo comportamento “nascosto” \u00e8 pi\u00f9 persistente nei modelli pi\u00f9 grandi e nei modelli addestrati a produrre ragionamenti basati su catene di pensiero volte a ingannare il processo di formazione, la cui persistenza rimane anche quando la catena di pensiero viene rimossa. Inoltre, invece di rimuovere le backdoor<\/em>, scopriamo che l’addestramento contraddittorio pu\u00f2 insegnare ai modelli a riconoscere meglio i fattori scatenanti delle backdoor<\/em>, nascondendo di fatto il comportamento non sicuro. I nostri risultati suggeriscono che, una volta che un modello mostra un comportamento ingannevole, le tecniche standard<\/em> potrebbero non riuscire a rimuovere tale inganno e creare una falsa impressione di sicurezza.<\/p><\/blockquote>\n

Quello di oggi \u00e8 un genere di post<\/em> che spesso ho scritto su DropSea<\/em><\/a>, l’abstract<\/em> di un articolo scientifico o, come in questo caso, di un pre-print<\/em>((Per pre-print<\/em> si intende un articolo scientifico pubblicato su un archivio, come arXiv, prima che questo venga effettivamente pubblicato su una rivista. Generalmente l’articolo \u00e8 pubblicato su un archivio di questo genere per sottomettere lo stesso senza la necessit\u00e0 di mandare alcun file<\/em>, ma limitandosi al semplice link<\/em>. In altri casi, invece, il pre-print<\/em> viene pubblicato nell’archivio dopo la sottomissione o, nei casi pi\u00f9 rari, dopo la pubblicazione, generalmente su rivista ad accesso chiuso, dove cio\u00e9 bisogna pagare un abbonamento per leggere gli articoli.)), che o lascio non tradotto, aggiungendo spesso due righe di commento, o traducendolo senza ulteriori discussioni a parte l’ovvia indicazione dell’originale. In questo caso, se vogliamo, il commento \u00e8 la striscia di vignette tratte da Avengers<\/em> #55 del 1968 di Roy Thomas<\/strong> e John Buscema<\/strong> in cui Ultron si rivela a uno spaesato Jarvis, e che mi sembra particolarmente calzante (anche se forse un po’ troppo ansiogena allo stato attuale delle ricerche) con l’articolo Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training<\/em><\/a>, il cui principale successo, anche se non reso esplicito, \u00e8 quello di mostrare come gli algoritmi di intelligenza artificiale siano oggi in grado di riprodurre in maniera molto simile i processi della mente umana (e quindi Ultron \u00e8 molto pi\u00f9 umano di quel che gli piace credere!).<\/p>\n

\"\"
da Avengers<\/em> #55 di Roy Thomas<\/strong> e John Buscema<\/strong><\/figcaption><\/figure>\n

L’immagine di apertura, invece, \u00e8 un estratto della copertina di Avengers<\/em> #67.<\/small><\/p>\n","protected":false},"excerpt":{"rendered":"

L’uscita di un articolo sull’addestramento ingannevole (o malvagio!) delle intelligenze artificiali sembra quasi l’inizio una nuova “Age of Ultron”<\/p>\n","protected":false},"author":32,"featured_media":4683,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"slim_seo":{"title":"Comportamento strategicamente ingannevole - Al caff\u00e9 del Cappellaio Matto","description":"L'uscita di un articolo sull'addestramento ingannevole (o malvagio!) delle intelligenze artificiali sembra quasi l'inizio una nuova \"Age of Ultron\""},"footnotes":""},"categories":[339],"tags":[1633,1634,1635,398,1632,47,652,342,1631],"class_list":["post-4680","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-la-scienza-con-i-supereroi","tag-abstract","tag-arxiv","tag-avengers","tag-intelligenza-artificiale","tag-john-buscema","tag-marvel-comics","tag-roy-thomas","tag-supereroi","tag-ultron"],"_links":{"self":[{"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/posts\/4680","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/users\/32"}],"replies":[{"embeddable":true,"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/comments?post=4680"}],"version-history":[{"count":0,"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/posts\/4680\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/media\/4683"}],"wp:attachment":[{"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/media?parent=4680"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/categories?post=4680"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/tags?post=4680"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}