Anthropic ha recentemente pubblicato uno studio sul funzionamento del modello di intelligenza artificiale Claude 3.

Questo studio ci ha fornito utili informazioni sul funzionamento dei modelli linguistici di grandi dimensioni, mostrando che alcuni dei loro meccanismi interni possono essere compresi e persino manipolati.

Nella mente di Claude sono stati trovati milioni di concetti, che si attivano quando il modello legge un particolare testo o vede una particolare immagine. Questi gruppi di neuroni all’interno di un modello di intelligenza artificiale, che si attivano in risposta a un concetto specifico sono definiti features.

Per capire meglio, immaginiamo il modello di intelligenza artificiale come un enorme mosaico. Ogni tessera del mosaico rappresenta un neurone. Quando il modello elabora delle informazioni, ad esempio leggendo un testo o osservando un’immagine, alcune di queste tessere (neuroni) si “accendono”, ovvero si attivano.

Una “feature” è un gruppo di tessere che si attivano insieme in modo significativo. Ad esempio, potrebbe esserci una feature specifica per il concetto di “gatto”. Ogni volta che il modello incontra l’immagine di un gatto, o legge la parola “gatto” in un testo, i neuroni che compongono questa “feature” si attivano.

Le “feature” non rappresentano solo oggetti concreti come i gatti. Possono anche rappresentare concetti più astratti come “felicità”, “tristezza”, “ironia” o persino stili di scrittura come “formale” e “informale”.

Una di queste feature, oggetto dello studio di Anthropic, è il concetto del Golden Gate Bridge: è stata trovata una specifica combinazione di neuroni nella rete neurale di Claude, che si attiva quando si menziona o quando si mostra una foto del famoso ponte di San Francisco.
Non solo è possibile identificare queste feature, ma è anche possibile aumentarne o diminuirne l’intensità ed identificare i corrispondenti cambiamenti nel comportamento di Claude.

Come spiegato nello studio, quando si aumenta l’intensità della feature Golden Gate Bridge, le risposte di Claude iniziano a concentrarsi sul Golden Gate Bridge, anche a sproposito!

Se si chiede a Golden Gate Claude come spendere 10 dollari, consiglierà di usarli per pagare il pedaggio per attraversare il Golden Gate Bridge. Se gli si chiede di scrivere una storia d’amore, racconterà la storia di un’auto che non vede l’ora di attraversare il suo amato ponte in un giorno di nebbia. Se gli si chiede come immagina il suo aspetto, risponderà che immagina di assomigliare al Golden Gate Bridge.

Anche noi comuni utenti possiamo parlare con “Golden Gate Claude” su claude.ai: l’obiettivo è quello di far vedere alle persone l’impatto che può avere l’individuare e modificare queste features all’interno di un modello AI. Inoltre ciò testimonia che stiamo davvero cominciando a capire come funzionano realmente i modelli linguistici di grandi dimensioni.

Claude ha modificato il suo modo di agire non in virtù di un Prompt custom ben cesellato (Es. “d’ora in avanti fingi di essere un ponte”), ma grazie ad  una modifica precisa e chirurgica di alcuni degli aspetti del modello.

In sintesi, il testo publicato da Anthropic annuncia un progresso significativo nell’interpretabilità dei modelli di AI, aprendo la strada a una maggiore comprensione e controllo su come queste tecnologie prendono decisioni.

Cerchiamo di capire un po’ meglio il cuore di questo studio ed il perché esso sia rilevante.

Che cos’è l’Interpretabilità?

In ambito di intelligenza artificiale, e in particolare per quanto riguarda i modelli di apprendimento automatico, l’interpretabilità si riferisce alla capacità di comprendere come e perché un modello arrivi ad una determinata decisione.

In sostanza, l’interpretabilità ci permette di aprire la “scatola nera” dei modelli di apprendimento automatico, rendendoli più trasparenti e comprensibili.

Perché l’interpretabilità è importante?

  • Fiducia: capire come un modello funziona ci permette di fidarci di più delle sue decisioni, soprattutto in ambiti critici come la medicina o la finanza
  • Debugging: se un modello commette errori, l’interpretabilità ci aiuta a identificarne la causa e a correggerlo
  • Etica: l’interpretabilità è fondamentale per garantire che i modelli di AI non siano discriminatori o ingiusti nelle loro decisioni

L’interpretabilità è un aspetto cruciale per lo sviluppo di un’intelligenza artificiale responsabile ed affidabile.

Come è stata dimostrata l’interpretabilità della Golden Gate Feature?

Grazie alla Specificità ovvero alla verifica che l’attivazione di una feature corrisponde effettivamente alla presenza del concetto associato nel testo: la caratteristica “Golden Gate Bridge” si è attivata solo parlando del famoso ponte.
Inoltre grazie all’Influenza sul comportamento: si verifica che, modificando artificialmente l’attivazione di una feature, si ottengono cambiamenti nel comportamento del modello coerenti con il concetto associato. Ad esempio, aumentando l’attivazione della caratteristica “Golden Gate Bridge”, il modello dovrebbe parlare più spesso del ponte. Utilizzando una tecnica chiamata “feature steering“, che consiste nel modificare artificialmente l’attivazione di una feature durante l’elaborazione del testo. Ad esempio, aumentando l’attivazione della caratteristica “Golden Gate Bridge”, il modello inizia a parlare del ponte anche quando non è rilevante per la conversazione.

Risultati: le feature analizzate presentano un alto grado di specificità, attivandosi principalmente in presenza dei concetti associati. Inoltre, la tecnica di “feature steering” dimostra che è possibile influenzare il comportamento del modello in modo coerente con l’interpretazione delle caratteristiche.

Questo studio ha dimostrato che alcune feature (oltre al Golden Gate, anche neuroscienze, monumenti famosi, treni, ponti…) estratte dai modelli linguistici di grandi dimensioni sono effettivamente interpretabili, aprendo la strada a una migliore comprensione del loro funzionamento. La capacità di identificare e manipolare caratteristiche specifiche potrebbe portare a sistemi di intelligenza artificiale più trasparenti, affidabili e sicuri.

Come descritto nell’articolo di Anthropic, è possibile utilizzare queste stesse tecniche per modificare caratteristiche relative alla sicurezza, come quelle relative a codice informatico pericoloso, attività criminali o inganni. Con ulteriori ricerche, si ritiene che questo lavoro possa contribuire a rendere i modelli di AI più sicuri.