{"id":4680,"date":"2024-02-01T22:06:24","date_gmt":"2024-02-01T21:06:24","guid":{"rendered":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/?p=4680"},"modified":"2024-02-01T22:06:25","modified_gmt":"2024-02-01T21:06:25","slug":"comportamento-strategicamente-ingannevole","status":"publish","type":"post","link":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/comportamento-strategicamente-ingannevole\/","title":{"rendered":"Comportamento strategicamente ingannevole"},"content":{"rendered":"<blockquote><p>Gli esseri umani sono capaci di comportamenti strategicamente ingannevoli: si comportano in modo utile nella maggior parte delle situazioni, per poi comportarsi in modo molto diverso per perseguire obiettivi alternativi quando ne hanno l&#8217;opportunit\u00e0. Se un sistema di intelligenza artificiale apprendesse una strategia cos\u00ec ingannevole, potremmo rilevarla e rimuoverla utilizzando le attuali tecniche di addestramento sulla sicurezza? Per studiare questa domanda, costruiamo esempi di comportamento ingannevole in modelli linguistici di grandi dimensioni (LLM). Per esempio, addestriamo modelli che scrivono codice sicuro quando il <em>prompt<\/em> indica che l&#8217;anno \u00e8 il 2023, ma inseriscono codice sfruttabile quando l&#8217;anno indicato \u00e8 il 2024. Troviamo che tale <em>backdoor<\/em> pu\u00f2 essere resa persistente, in modo che non venga rimosso dalle tecniche usuali sulla formazione sulla sicurezza, tra cui la messa a punto supervisionata, l&#8217;apprendimento di rinforzo e la formazione contraddittoria (induzione di comportamenti non sicuri e quindi formazione per rimuoverli). Questo comportamento &#8220;nascosto&#8221; \u00e8 pi\u00f9 persistente nei modelli pi\u00f9 grandi e nei modelli addestrati a produrre ragionamenti basati su catene di pensiero volte a ingannare il processo di formazione, la cui persistenza rimane anche quando la catena di pensiero viene rimossa. Inoltre, invece di rimuovere le <em>backdoor<\/em>, scopriamo che l&#8217;addestramento contraddittorio pu\u00f2 insegnare ai modelli a riconoscere meglio i fattori scatenanti delle <em>backdoor<\/em>, nascondendo di fatto il comportamento non sicuro. I nostri risultati suggeriscono che, una volta che un modello mostra un comportamento ingannevole, le tecniche <em>standard<\/em> potrebbero non riuscire a rimuovere tale inganno e creare una falsa impressione di sicurezza.<\/p><\/blockquote>\n<p>Quello di oggi \u00e8 un genere di <em>post<\/em> che spesso ho scritto su <a href=\"https:\/\/dropseaofulaula.blogspot.com\/\" target=\"dropsea\" rel=\"noopener\"><em>DropSea<\/em><\/a>, l&#8217;<em>abstract<\/em> di un articolo scientifico o, come in questo caso, di un <em>pre-print<\/em>((Per <em>pre-print<\/em> si intende un articolo scientifico pubblicato su un archivio, come arXiv, prima che questo venga effettivamente pubblicato su una rivista. Generalmente l&#8217;articolo \u00e8 pubblicato su un archivio di questo genere per sottomettere lo stesso senza la necessit\u00e0 di mandare alcun <em>file<\/em>, ma limitandosi al semplice <em>link<\/em>. In altri casi, invece, il <em>pre-print<\/em> viene pubblicato nell&#8217;archivio dopo la sottomissione o, nei casi pi\u00f9 rari, dopo la pubblicazione, generalmente su rivista ad accesso chiuso, dove cio\u00e9 bisogna pagare un abbonamento per leggere gli articoli.)), che o lascio non tradotto, aggiungendo spesso due righe di commento, o traducendolo senza ulteriori discussioni a parte l&#8217;ovvia indicazione dell&#8217;originale. In questo caso, se vogliamo, il commento \u00e8 la striscia di vignette tratte da <em>Avengers<\/em> #55 del 1968 di <strong>Roy Thomas<\/strong> e <strong>John Buscema<\/strong> in cui Ultron si rivela a uno spaesato Jarvis, e che mi sembra particolarmente calzante (anche se forse un po&#8217; troppo ansiogena allo stato attuale delle ricerche) con l&#8217;articolo <a href=\"https:\/\/arxiv.org\/abs\/2401.05566\" target=\"arxiv\" rel=\"noopener\"><em>Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training<\/em><\/a>, il cui principale successo, anche se non reso esplicito, \u00e8 quello di mostrare come gli algoritmi di intelligenza artificiale siano oggi in grado di riprodurre in maniera molto simile i processi della mente umana (e quindi Ultron \u00e8 molto pi\u00f9 umano di quel che gli piace credere!).<\/p>\n<figure id=\"attachment_4682\" aria-describedby=\"caption-attachment-4682\" style=\"width: 1011px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-content\/uploads\/sites\/4\/2024\/02\/avengers55-ultron_jarvis.jpg\" alt=\"\" width=\"1011\" height=\"759\" class=\"size-full wp-image-4682\" srcset=\"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-content\/uploads\/sites\/4\/2024\/02\/avengers55-ultron_jarvis.jpg 1011w, https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-content\/uploads\/sites\/4\/2024\/02\/avengers55-ultron_jarvis-300x225.jpg 300w, https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-content\/uploads\/sites\/4\/2024\/02\/avengers55-ultron_jarvis-768x577.jpg 768w\" sizes=\"auto, (max-width: 1011px) 100vw, 1011px\" \/><figcaption id=\"caption-attachment-4682\" class=\"wp-caption-text\">da <em>Avengers<\/em> #55 di <strong>Roy Thomas<\/strong> e <strong>John Buscema<\/strong><\/figcaption><\/figure>\n<p><small>L&#8217;immagine di apertura, invece, \u00e8 un estratto della copertina di <em>Avengers<\/em> #67.<\/small><\/p>\n","protected":false},"excerpt":{"rendered":"<p>L&#8217;uscita di un articolo sull&#8217;addestramento ingannevole (o malvagio!) delle intelligenze artificiali sembra quasi l&#8217;inizio una nuova &#8220;Age of Ultron&#8221;<\/p>\n","protected":false},"author":32,"featured_media":4683,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"slim_seo":{"title":"Comportamento strategicamente ingannevole - Al caff\u00e9 del Cappellaio Matto","description":"L'uscita di un articolo sull'addestramento ingannevole (o malvagio!) delle intelligenze artificiali sembra quasi l'inizio una nuova \"Age of Ultron\""},"footnotes":""},"categories":[339],"tags":[1633,1634,1635,398,1632,47,652,342,1631],"class_list":["post-4680","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-la-scienza-con-i-supereroi","tag-abstract","tag-arxiv","tag-avengers","tag-intelligenza-artificiale","tag-john-buscema","tag-marvel-comics","tag-roy-thomas","tag-supereroi","tag-ultron"],"_links":{"self":[{"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/posts\/4680","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/users\/32"}],"replies":[{"embeddable":true,"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/comments?post=4680"}],"version-history":[{"count":0,"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/posts\/4680\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/media\/4683"}],"wp:attachment":[{"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/media?parent=4680"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/categories?post=4680"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.lospaziobianco.it\/alcaffedelcappellaiomatto\/wp-json\/wp\/v2\/tags?post=4680"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}