
Possiamo fidarci dei modelli statistici complessi?
Dagli studi sulla salute pubblica ai sondaggi politici e ai sistemi di raccomandazione, i modelli misti sono uno strumento fondamentale per analizzare dati complessi. Essi aiutano i ricercatori a considerare sia i fattori fissi, come l'età, il reddito o l'istruzione, sia gli effetti casuali, come le differenze tra regioni, istituzioni o comportamenti individuali.
Ma più questi modelli diventano complessi, più sono difficili da implementare. Nel mondo reale, dove i dati possono coinvolgere migliaia di gruppi o milioni di osservazioni, diventa sempre più difficile non solo fare previsioni, ma anche sapere quanto ci si può fidare di tali previsioni.
Un recente studio pubblicato su Biometrika da Omiros Papaspiliopoulos e Giacomo Zanella (Dipartimento di Scienze delle Decisioni, Bocconi) con Max Goplerud (University of Texas at Austin), "Partially Factorized Variational Inference for High-Dimensional Mixed Models", introduce un nuovo metodo che offre risultati più affidabili in minor tempo, anche per modelli molto grandi e complessi.
I rischi delle scorciatoie
Quando si lavora con questi modelli, i ricercatori si affidano spesso a scorciatoie per ottenere risultati in tempi brevi. Una delle più comuni è nota come inferenza variazionale, che approssima l'insieme delle possibilità del modello utilizzando una versione semplificata più facile da calcolare.
Tuttavia, la versione più diffusa di questa scorciatoia, chiamata inferenza variazionale di campo medio, ha un grosso inconveniente: sottovaluta l'incertezza. Ciò significa che può indurre un'elevata fiducia nelle previsioni anche quando il modello non la garantirebbe. Gli autori dimostrano che questo problema si aggrava quando il modello include più dati o più variabili.
Non si tratta solo di un dettaglio tecnico. Sottovalutare l'incertezza può avere conseguenze reali: trarre in inganno i decisori politici, fare troppe promesse agli investitori o prendere decisioni sbagliate in medicina, nel marketing o nella pianificazione pubblica.
Un'approssimazione più intelligente
Per risolvere questo problema, gli autori introducono l'inferenza variazionale parzialmente fattorizzata. Invece di semplificare il modello trattando tutte le variabili come non correlate, il loro metodo mantiene intatte le connessioni chiave, consentendo una migliore approssimazione sia delle previsioni sia della fiducia che dovremmo avere in esse.
Questo metodo inoltre è veloce. I risultati mostrano che quando l'approssimazione è più accurata, anche l'algoritmo utilizzato per calcolarla converge più velocemente. In altre parole, le risposte migliori non sono solo più affidabili, ma richiedono anche meno tempo per essere trovate.
Testato nel mondo reale
Il gruppo di ricerca ha testato il metodo su casi su larga scala, compresi modelli sofisticati di affluenza alle urne che tengono conto della geografia, della demografia e dei livelli di istruzione. La loro tecnica ha superato le alternative standard: è stata più accurata e più scalabile.
Gli autori hanno inoltre rilasciato il loro metodo in un pacchetto open-source, rendendolo liberamente disponibile ad analisti, ricercatori e data scientist.
Più dati, migliori risultati
Forse l'intuizione più sorprendente dello studio è quella che gli autori chiamano la benedizione della dimensionalità. A differenza di molti metodi statistici, che incontrano problemi con l'aumento della complessità dei dati, questo nuovo approccio ha risultati migliori quando vengono aggiunti più gruppi, categorie o punti di dati, se il modello è strutturato nel modo giusto. Questo accade perché un maggior numero di dati crea modelli più ricchi, che l'algoritmo può sfruttare per migliorare l'accuratezza.
Questa conclusione si basa sui concetti della teoria dei grafi, dimostrando che i dati ben collegati, dove le variabili interagiscono frequentemente tra i gruppi, favoriscono una stima migliore.
Consigli pratici
Naturalmente, non tutti i set di dati si comportano bene. In alcuni contesti gerarchici, come i sistemi scolastici all'interno dei distretti, le relazioni tra le variabili possono complicare le cose. Gli autori propongono una strategia semplice: quando si modellano interazioni complesse, si può cercare di includere le componenti di base (ad esempio, regione, età o sesso) direttamente nel nucleo dell'approssimazione. Questo rende i calcoli gestibili senza sacrificare l'affidabilità.
M. Goplerud, O. Papaspiliopoulos, G. Zanella, "Partially factorized variational inference for high-dimensional mixed models", Biometrika, Volume 112, Issue 2, 2025, DOI https://doi.org/10.1093/biomet/asae067