Contatti
Uno studio teorico Bocconi getta nuova luce su come i modelli generativi di diffusione, come quelli dietro a Midjourney e Stable Diffusion, riescono a creare immagini realistiche. Il segreto? Generalizzano meglio quando i dati sono strutturati, ma se allenati troppo a lungo o su pochi dati vanno incontro al fenomeno della memorizzazione

Immaginate di usare un modello di intelligenza artificiale per generare il volto realistico di una persona. Ogni immagine è composta da milioni di pixel, ma sappiamo che i volti umani, per quanto diversi, si somigliano tutti in alcune caratteristiche fondamentali: due occhi, simmetria, proporzioni… Ecco, è proprio in questa struttura latente che lo studio Memorization and Generalization in Generative Diffusion under the Manifold Hypothesis pubblicato sul Journal of Statistical Mechanics Theory and Experiment, firmato da Beatrice Achilli, Carlo Lucibello, Marc Mézard e Enrico Ventura della Bocconi e Luca Ambrogioni (Radboud University) trova la chiave per comprendere quando e perché un modello generativo funziona davvero.

Non si tratta solo di estetica. Questo tipo di AI, chiamata modello di diffusione generativa (diffusion model, DM), viene oggi usata per generare immagini, musica, persino sequenze genetiche o immagini mediche. Ma quanto capisce davvero un modello di ciò che genera? È in grado di produrre nuovi e consistenti esempi? Quand'è invece che i modelli diventano dei semplici pappagalli che generano esempi che erano già parte del training set?  

Reti di Hopfield moderne

Per analizzare il fenomeno della memorizzazione nei modelli generativi, cioè quella tendenza indesiderata opposta alla generalizzazione, gli autori sfruttano una connessione tra i diffusion model e le reti di memoria associativa, ispirate alla neurobiologia. Questa classe di modelli fu introdotta da John Hopfield nel 1982, contributo che gli è valso il Premio Nobel per la Fisica nel 2024. L’analisi di una moderna rivisitazione della rete di Hopfield, dotata di una capacità esponenzialmente maggiore rispetto al passato, ha permesso agli autori di caratterizzare e mitigare il problema della memorizzazione nei modelli generativi basati sulla diffusione.

Sotto la superficie dei dati

Lo studio parte da un’ipotesi nota nel mondo del machine learning: i dati complessi non sono distribuiti a caso, ma si dispongono su una sorta di superficie nascosta, una “manifold” a bassa dimensione. Pensate ai volti umani: ogni foto può avere milioni di pixel, ma le variazioni (espressione, luce, età…) si muovono su una superficie molto più semplice. Lo stesso vale per la voce, per immagini mediche o per dati scientifici: sono ad alta dimensione solo in apparenza.

I ricercatori usano un modello teorico chiamato Hidden Manifold Model (HMM) per rappresentare questa struttura nascosta. Secondo Carlo Lucibello, assistant professor in Computer Science, “i dati reali che usiamo nei modelli generativi non sono casuali. Sono vincolati da leggi, regole, strutture: e proprio queste rendono l'apprendimento più efficace”.

Il momento giusto per fermarsi

Anche le reti che "overfittano", cioè imparano troppo bene i dati, fino a memorizzarli, non sono del tutto perdute. Una delle scoperte centrali dello studio riguarda il tempo ottimale in cui fermare la generazione per massimizzare la generalizzazione. Nei modelli di diffusione, ogni nuova immagine è generata rimuovendo progressivaente il rumore da una nuvola di punti casuali. Più a lungo si continua questo processo, più l’immagine si avvicina a esempi visti in fase di addestramento. Ma, sorprendentemente, il punto migliore per fermarsi non è alla fine del processo, bensì prima: in una fase in cui il modello inizia a memorizzare, ma sta ancora producendo varianti nuove. Il massimo della generalizzazione”, spiega Marc Mézard, full professor in Fisica Teorica e titolare della Fondazione Romeo ed Enrica Invernizzi Chair in Computer Science della Bocconi, “avviene dentro la fase di memorizzazione. È un paradosso: si generalizza meglio proprio quando il modello sta iniziando a copiare.”

Una maledizione (in parte) evitata

Un altro mito sfatato è quello della maledizione della dimensionalità: la convinzione che, man mano che aumentano le dimensioni dei dati, servano sempre più esempi per imparare. Lo studio dimostra che questa “maledizione” riguarda la dimensione latente, non quella visibile. E se la varietà latente è bassa, bastano molti meno dati.

Questo è particolarmente utile per applicazioni dove i dati sono rari o costosi da ottenere: immagini di cellule tumorali, risonanze magnetiche, simulazioni chimiche… “In questi casi”, chiarisce Lucibello, “non serve una quantità spropositata di dati. Serve capire bene la struttura sottostante.”

Perché conta

Il lavoro, teorico e sofisticato, usa strumenti della fisica statistica e della teoria dei vetri di spin per modellare il comportamento dei modelli di diffusione. Ma le implicazioni sono pratiche: aiutano a progettare modelli più efficienti, a selezionare meglio i dati, a ottimizzare i tempi di generazione.

In un contesto in cui l’AI generativa diventa sempre più diffusa, dalla medicina alla creatività, sapere quando fermarsi può fare la differenza. Per produrre immagini, suoni o simulazioni che siano non solo belle da vedere, ma anche intelligenti, flessibili e sostenibili.

MARC MEZARD

Bocconi University
Dipartimento di Scienze della Computazione
Professore Ordinario

CARLO LUCIBELLO

Bocconi University
Dipartimento di Scienze della Computazione
Assistant Professor