Contatti

Quando il tutor migliore è un algoritmo

, di Barbara Orlando
Un esperimento scientifico mette a confronto insegnanti e IA nella didattica: vince GPT-4. Ma cosa ci dice davvero questo risultato?

Cosa rende un tutor efficace? La capacità di coinvolgere, di riconoscere quando uno studente è in difficoltà, di guidarlo verso la soluzione senza imporla. In una parola, empatia. O, meglio ancora, empatia didattica. Una qualità che abbiamo sempre attribuito agli esseri umani, e che oggi rischia di essere replicata - o addirittura superata - da un tutor artificiale. Non è uno scenario fantascientifico, ma il risultato concreto di uno studio condotto in Europa, che costringe a rimettere in discussione alcune certezze sull’insegnamento.

Nel working paper Educators’ Perceptions of Large Language Models as Tutors: Comparing Human and AI Tutors in a Blind Text-only Setting, sei autori - Sankalan Pal Chowdhury, Terry Jingchen Zhang e Mrinmaya Sachan (ETH Zurich), Dirk Hovy e Donya Rooein (Bocconi University), Tanja Käser (École Polytechnique Fédérale de Lausanne) - hanno progettato un esperimento per confrontare l’efficacia percepita di tutor umani e tutor basati su modelli linguistici di grandi dimensioni (LLM), in un contesto rigorosamente alla cieca. Nessun nome, nessuna interfaccia, solo testo.

“Volevamo capire come vengono percepiti i tutor LLM, non tanto in termini di risultati di apprendimento, ma nei tratti latenti che rendono efficace l’interazione educativa,” spiega Dirk Hovy, professore associato di natural language processing and computational social science e dean for Digital Transformation and Artificial Intelligence alla Bocconi. “È una sorta di Turing Test pedagogico, ma al contrario: non chiediamo chi è l’umano, chiediamo chi è il tutor migliore”.

IA vs umani, parola agli insegnanti

L’esperimento si basa su 210 coppie di dialoghi tutor-studente, costruiti attorno a problemi di matematica di livello elementare. Da un lato, conversazioni generate da insegnanti umani che interagivano con uno studente simulato da un LLM programmato per sbagliare. Dall’altro, le risposte generate da MWPTutor, un sistema basato su GPT-4 con regole e controlli progettati per garantire accuratezza e guidare lo studente in modo coerente.

I dialoghi sono stati valutati da 35 annotatori, tutti con esperienza di insegnamento, ai quali è stato chiesto di giudicare - senza sapere quale dialogo fosse umano o artificiale - quale tra i due tutor fosse migliore su quattro dimensioni: coinvolgimento, empatia, scaffolding (cioè la capacità di guidare lo studente verso la soluzione senza imporgliela) e concisione.

Il risultato è netto. MWPTutor ha prevalso su tutti i fronti. Il divario più marcato riguarda l’empatia, dove l’80% degli annotatori ha preferito il tutor IA. Seguono lo scaffolding e la concisione, anche qui con un vantaggio statisticamente significativo. Solo sul coinvolgimento il risultato è più sfumato, ma comunque non a favore dell’umano.

La forza (apparente) dell’empatia artificiale

Che un algoritmo sia considerato più empatico di un insegnante in carne e ossa è un risultato che lascia perplessi.  “Il risultato più controintuitivo è che l’IA è stata percepita come più empatica,” osserva Hovy. “Naturalmente non prova empatia: la simula. Ma lo fa così bene da convincere chi la valuta.” Un aspetto non secondario riguarda la concisione. Anche se le conversazioni dell’LLM erano spesso più lunghe, venivano percepite come più dirette e finalizzate. Questo accadeva perché l’IA riusciva a trasmettere un senso di progresso costante, mentre i dialoghi umani, più frammentari e meno strutturati, sembravano talvolta girare a vuoto. A questo si aggiunge la qualità formale: i testi umani contenevano refusi, errori grammaticali o ambiguità stilistiche, mentre l’IA risultava levigata, fluida e coerente. Una differenza che può aver avuto un peso, seppur inconscio, nella percezione di professionalità e autorevolezza.

Insegnanti stanchi, IA instancabile

Ma c’è di più. Mostrare empatia, coinvolgere uno studente, adattarsi alla sua comprensione non è solo questione di metodo: richiede energie mentali e disponibilità emotiva. “L’empatia è faticosa,” spiega ancora Hovy. “Un insegnante umano può essere stanco, sopraffatto, frustrato. L’IA no: può essere paziente, empatica e sorridente 24 ore su 24, senza mai perdere la calma.” C’è anche un elemento di contesto che non va trascurato. I tutor umani sapevano di interagire con uno studente simulato. Questo potrebbe aver influito negativamente sul loro impegno, riducendo l’efficacia delle loro risposte. L’IA, ovviamente, non fa distinzioni.

Una macchina può insegnare?

La risposta è: in parte, sì. Lo studio dimostra che un LLM ben progettato può svolgere con successo alcune funzioni di tutoring testuale, specialmente quelle più ripetitive e strutturate. Non significa che l’IA sia pronta a sostituire l’insegnante umano. Ma che può diventare un alleato potente. “La nostra speranza è che gli insegnanti possano usare strumenti come MWPTutor per alleggerire il carico, non per essere sostituiti,” conclude Hovy. “L’IA è brava a simulare l’empatia, ma non potrà mai capire veramente uno studente nel suo contesto umano e sociale. E questo, per fortuna, resta un compito nostro.” Per gli educatori, il messaggio è chiaro: l’intelligenza artificiale non toglierà senso al loro lavoro, ma può restituire tempo e attenzione da dedicare a ciò che la macchina non sa fare. Per i progettisti di sistemi educativi, il punto è un altro: se vogliamo che l’IA sia al servizio dell’istruzione, dobbiamo costruirla non solo per dare risposte corrette, ma per parlare come un buon maestro.

DIRK HOVY

Università Bocconi
Dipartimento di Scienze della Computazione
Focus

Dentro la scuola: chi include, chi esclude, chi decide

Dall’isolamento sociale all’intelligenza artificiale, passando per i pregiudizi (consapevoli o meno) di chi insegna: quattro ricerche firmate da studiose e studiosi Bocconi aprono la “scatola nera” della scuola. E mostrano...

26 Nov 2025, di Barbara Orlando, Diane Orze, Andrea Celauro, Pietro Masotti
Leggi tutto