Contatti

Una nuova teoria per indagare i legami nascosti tra fenomeni

, di Andrea Costa
Una ricerca di Borgonovo, Savaré e colleghi rilegge una grande varietà di metodi statistici per dare forma a una teoria matematica più coerente della dipendenza

Capire quanto due fenomeni dipendano l’uno dall’altro è una delle sfide più affascinanti e difficili della statistica. Dalla correlazione di Pearson, nata a fine Ottocento, fino agli algoritmi che oggi alimentano l’intelligenza artificiale, gli studiosi hanno creato decine di strumenti per misurare la dipendenza tra variabili. Ma ogni metodo ha mostrato i suoi limiti: alcuni funzionano solo in casi lineari, altri perdono coerenza quando i dati diventano complessi.

Emanuele Borgonovo e Giuseppe Savaré (Dipartimento di Scienze delle Decisioni e BIDSA, Bocconi), insieme ad Alessio Figalli (ETH Zürich), Promit Ghosal (University of Chicago) ed Elmar Plischke (HZDR, Germania), hanno provato a mettere ordine in questo labirinto. Il loro studio, “Convexity and Measures of Statistical Association”, pubblicato sul Journal of the Royal Statistical Society, propone una teoria generale che unifica molte delle misure esistenti in un unico quadro coerente.

Un linguaggio comune per la dipendenza

L’idea di fondo è tanto semplice quanto potente: Le misure di dipendenza nascono da formule molto diverse tra loro, sviluppate in contesti differenti, ma tutte cercano di catturare quanto due variabili si influenzano. Borgonovo e colleghi mostrano che strumenti apparentemente lontani — dalla distanza di Csiszár ai metodi basati su kernel e al trasporto ottimale — si possono ricondurre a un’unica struttura matematica coerente, che aiuta a capire quando e perché certe misure funzionano meglio di altre.

Questa intuizione dà forma a un linguaggio comune, che aiuta a mettere in dialogo la statistica classica, la teoria dell’informazione e il machine learning.

Convessità: una forma per orientarsi tra i dati

Al centro di questa nuova teoria c’è la convessità, un concetto matematico che gli autori pongono a fondamento dell’intera costruzione. Per farsi un’idea, pensiamo a una valle ampia e regolare: se tracciamo una linea immaginaria tra due punti sui suoi pendii, quella linea passa sempre sopra il terreno. Non ci sono buche nascoste né risalite improvvise. In statistica, una misura “convessa” si comporta allo stesso modo: varia in modo coerente, senza bruschi cambi di direzione.

Come spiegano gli autori, grazie alla convessità, l’informazione si comporta in modo naturale: cresce quando si aggiungono dettagli e diminuisce solo quando se ne perdono, mai il contrario.

In altre parole: se si semplifica l’osservazione di un fenomeno, il numero che descrive la relazione tra le variabili non può improvvisamente diventare più grande. Una regola naturale, tradotta nel linguaggio preciso della matematica.

Dalla teoria ai dati concreti

Una volta definito il quadro teorico, gli autori si spingono oltre e mostrano come applicarlo nella pratica. Propongono due procedure di stima: una basata sui vicini più prossimi (una tecnica tipica dell’apprendimento automatico) e un’altra che riprende un metodo di Pearson del 1905, reinterpretato alla luce della nuova teoria. Gli autori dimostrano che gli stimatori di Pearson diventano asintoticamente non distorti per un’ampia famiglia di misure di associazione, dando risposta a una questione teorica rimasta a lungo aperta.

La loro struttura consente anche di derivare un teorema del limite centrale, che permette di stimare l’incertezza dei risultati e costruire test statistici più affidabili, un passo importante per applicazioni che vanno dall’economia alla biologia, fino alla sicurezza dei modelli di intelligenza artificiale.

Una bussola per la scienza dei dati

Nelle conclusioni, Borgonovo, Savaré e i loro colleghi scrivono che la convessità «assicura minimalità, non negatività e monotonicità, rendendo la misura massima quando Y è determinata da X e minima quando Y è indipendente da X.» In termini semplici: offre una bussola per scegliere con attenzione il modo giusto di misurare il legame tra i dati, senza cadere in paradossi o incoerenze. E questa classe, pur senza esaurire tutte le possibilità, ma apre nuove prospettive di ricerca sui fondamenti geometrici della dipendenza statistica.

In un’epoca in cui le relazioni tra variabili — economiche, climatiche o biologiche — sono al centro di ogni previsione, questa ricerca propone una matematica della coerenza, capace di determinare quanto davvero una cosa dipende da un’altra.

Borgonovo Emanuele

EMANUELE BORGONOVO

Università Bocconi
Dipartimento di Scienze delle Decisioni
Savarè

GIUSEPPE SAVARE'

Università Bocconi
Dipartimento di Scienze delle Decisioni