La legge dei grandi numeri: la prima impressione NON è quello che conta

La “legge dei grandi numeri” e l’equazione di De Moivre, due semplici regole statistiche che non possono essere trascurate nei processi decisionali.

Howard Wainer, celebre statistico americano, nell’articolo The Most Dangerous Equation, riporta una particolare cartina degli Stati Uniti dove viene raffigurata l’incidenza del cancro al fegato. Nello specifico, le zone a maggiore incidenza sono colorate di rosso e quelle a minore incidenza di verde.

Figura 1: incidenza del cancro al fegato, da *The Most Dangerous Equation* di Howard Wainer (American Scientist Mat 2007)

Le zone verdi sono prevalentemente aree rurali situate nel Midwest, nel Sud e a Ovest. Si sarebbe portati a dedurre che la vita di campagna ha un impatto positivo sulla salute: poco inquinamento, cibi a km zero senza additivi, contatto con la natura e così via. Peccato che anche le zone rosse con maggiore incidenza del cancro siano aree rurali situate nelle stesse regioni. Focalizzandosi solo sulle aree rosse si potrebbe dedurre che la malattia è connessa alla situazione di povertà di queste zone: scarso accesso a cure mediche di qualità, troppo alcol e tabacco etc etc. Quindi? Nessuna delle spiegazioni fornite è corretta. La vita in campagna non ha nessuna correlazione con l’incidenza del cancro. Ma c’è un altro fattore che le zone rosse e verdi hanno in comune: in entrambi i casi si tratta di zone poco popolate. Per capire come questa caratteristica possa essere collegata ai tassi di incidenza del cancro dobbiamo ricorrere ad un esempio.

La legge dei grandi numeri

Prendiamo una monetina, effettuiamo una serie di lanci e calcoliamo quante volte otteniamo “testa”. All’inizio proviamo con ripetizioni di 10 lanci: il numero di “teste” è molto variabile, generalmente tra il 30% e il 70%. Se incrementiamo il numero di lanci, effettuando ripetizioni da 100, il numero di teste che otteniamo tende a stabilizzarsi in un range tra il 40% e il 60%. Se aumentiamo il numero a 1.000 lanci, il range di risultati si restringe ancora di più, tra il 46% e il 54%. Quello che sta succedendo è raffigurato nella figura sottostante:

Man mano che si aumenta il numero di lanci, la percentuale di teste tende a convergere inesorabilmente verso il 50% come spinto da una forza di attrazione. Questa forza è la legge dei grandi numeri: le caratteristiche del campione (nel nostro caso una serie di lanci della monetina), come ad esempio la media o la proporzione, tendono a convergere a quelle della popolazione (da cui il campione è estratto) all’aumentare della dimensione del campione.

Il principio fu esplicitato in termini informali da Girolamo Cardano nel XVI secolo e provato matematicamente da Jacob Bernoulli nel XVIII secolo ma fu Simeon-Denis Poisson che all’inizio del XVIII secolo trovò il nome per descriverlo: “la loi des grands nombres”.

The most dangerous equation

Quando si parla della legge dei grandi numeri, non si può non menzionare un’altra proprietà: i risultati del campione tendono a essere tanto più variabili quanto più il campione è piccolo. Abbiamo visto questa regola in azione già nel lancio delle monete: se prendiamo serie da 10 lanci, il numero di teste che otteniamo può essere molto variabile, in alcuni casi addirittura 0 oppure 10, mentre se aumentiamo il numero di lanci il range percentuale di teste tende a restringersi. Questa regola è chiamata equazione di De Moivre dal nome del matematico francese che la formalizzò nel 1730.

Grazie all’equazione di De Moivre, siamo in grado di risolvere l’enigma dell’incidenza del cancro presentato all’inizio. Le zone rosse e verdi sono aree poco abitate: in sostanza sono un campione molto piccolo della popolazione. E campioni piccoli hanno una probabilità di mostrare risultati estremi molto più alta: quindi zone poco popolate risulteranno in cima e in fondo alla classifica di una serie infinita di statistiche. Non solo incidenza delle malattie, ma ad esempio statistiche di incidenza dei furti/rapine, di qualità della vita e così via.

“L’ignoranza di come la dimensione del campione impatti la variabilità dei risultati ha fatto danni per oltre un millennio.” (Howard Wainer)

Lo statistico Howard Wainer ha definito l’equazione di De Moivre, The Most Dangerous Equation, perché quando è stata ignorata o mal interpretata, ha portato a importanti errori di pianificazione, con ingente spreco di risorse pubbliche.

The “Small School Movement”

Prendiamo l’esempio delle politiche sull’istruzione attuate negli Stati Uniti. A partire dagli anni ‘80 si era diffusa la convinzione che le scuole di piccola dimensione potessero garantire una migliore istruzione perché risultavano sempre molto presenti nella parte alta delle classifiche annuali dei risultati degli studenti. La spiegazione in cui si credette era che in scuole piccole il rapporto più diretto tra professori e alunni potesse portare a risultati migliori. Si investirono svariati miliardi di dollari per ristrutturare il sistema scolastico favorendo le strutture educative più piccole. Tuttavia studi successivi, condotti dallo stesso Wainer, dimostrarono che le scuole piccole erano molto ben rappresentate anche nelle parti basse della classifica dei risultati scolastici. Ancora una volta era entrata in azione l’equazione di De Moivre. Addirittura si scoprì che gli studenti di scuole più grandi tendevano ad avere risultati migliori nel medio periodo perché avevano accesso a una maggiore scelta di corsi e a professori più specializzati. Nel 2005 la Gates Foundation ha rivisto il suo programma di supporto al sistema scolastico spostando il focus dalle scuole di piccola dimensione a quelle con un reale track record di miglioramento dei risultati ponendo di fatto fine allo “Small School Movement”.

Ci sono molti esempi di errori che derivano dalla mancata applicazione della legge di De Moivre: quando si confrontano i parametri di efficienza degli ospedali, i livelli di soddisfazione dei dipendenti o anche i risultati dei team all’interno di un’azienda. L’analisi dei dati (e solo della parte alta delle classifiche) ci potrebbe indurre a creare una serie di teorie per dimostrare che ospedali piccoli funzionano meglio, che in aziende di dimensioni limitate i dipendenti sono più soddisfatti e che team piccoli che lavorano a stretto contatto producono risultati migliori: in realtà dobbiamo ricordarci dell’equazione di De Moivre. Nel mondo sportivo ad esempio, si escludono dalle statistiche quei giocatori che hanno giocato poche partite, altrimenti in cima alle classifiche di performance troveremmo perfetti sconosciuti che hanno avuto la fortuna di “azzeccarle tutte” nei pochi minuti in cui hanno giocato.

All’interno delle aziende, i manager che gestiscono team di dimensioni diverse dovranno necessariamente ricordarsi che i risultati dei team piccoli saranno costantemente più volatili e che quindi per valutare il reale livello di efficacia saranno necessarie più osservazioni (i risultati di team piccoli dovranno essere testati su periodi più lunghi).

Il paradosso dell’osservatore sportivo e del colloquio di lavoro

L’ignoranza della legge dei grandi numeri può portare anche ad un’altra tipologia di errore molto frequente: l’estrapolazione di giudizi definitivi partendo da un campione di osservazione troppo piccolo, anche definita la legge dei piccoli numeri.

Richard Nisbett, professore di psicologia all’università del Michigan, nel suo libro Mindware, Tools for Smart Thinking, ci porta ad analizzare due paradossi: quello dell’osservatore sportivo e del colloquio di lavoro.

Supponiamo che un osservatore sportivo della vostra squadra di calcio del cuore, sia stato inviato a visionare un giovane attaccante, che ha avuto statistiche di rendimento eccezionali nelle stagioni passate e ottime recensioni da tutti gli allenatori e compagni con cui ha giocato. Purtroppo nella partita a cui assiste l’osservatore il giovane attaccante non ha una buona giornata: sbaglia tutti i palloni che gli capitano tra i piedi e offre una prestazione inconsistente. Se voi foste l’osservatore cosa consigliereste alla vostra squadra? Acquistare l’attaccante o no?

Oppure: dovete selezionare un giovane per l’azienda in cui lavorate. Si presenta un candidato che ha un curriculum esemplare ed in linea con quello che state cercando: ottimo rendimento scolastico e referenze molto buone da parte degli ex colleghi. Tuttavia durante il colloquio non appare particolarmente brillante e non vi fa una buona impressione. Cosa fate? Lo assumete o lo scartate?

In entrambi i casi la singola partita o il colloquio rappresentano un campione molto limitato di osservazione e quindi, come De Moivre ci insegna, soggetto ad alta volatilità e non rappresentativo del reale valore (“true score” come lo definisce Nisbett) del soggetto che stiamo valutando. Le statistiche su molti campionati e il feedback degli allenatori in un caso, e i risultati scolastici e il feedback dei colleghi nell’altro, rappresentano un campione molto più importante e quindi più indicativo del reale valore dell’individuo e quindi dovrebbero ricevere un peso superiore nel processo decisionale.

Molto spesso invece gli intervistatori tendono ad attribuire troppo peso a 30/60 minuti di colloquio e a trascurare invece il valore di altre informazioni più significative: questo perché si è troppo fiduciosi sulle proprie capacità di valutare le caratteristiche delle persone sulla base della propria sensibilità.

Nisbett arriva a suggerire il seguente paradosso: nel caso in cui si è in grado di reperire un numero sufficiente di informazioni significative, risultati scolastici, lavorativi, referenze da parte di colleghi, sarebbe meglio non intervistare il candidato perché molto spesso ci facciamo influenzare troppo dal colloquio.

E’ chiaro quindi che il lavoro più importante debba essere fatto a monte: per individuare le caratteristiche della popolazione che stiamo studiando, in questo caso l’abilità del calciatore o del giovane candidato, è necessario reperire un campione significativo di informazioni rilevanti, attribuendo all’atto finale (l’osservazione della singola partita e il colloquio) il peso che merita. Gli sport, in questo senso hanno fatto enormi passi in avanti, grazie alla disponibilità dei dati: negli Stati Uniti, ad esempio, il team di statistici ha più impatto rispetto agli osservatori nella scelta dei giocatori. Purtroppo nel business e nella vita la legge dei grandi numeri è ancora troppo spesso trascurata.

Bibliografia:

Ellenberg, Jordan. How Not to Be Wrong: The Power of Mathematical Thinking. Penguin Books, 2014.

Nisbett, Richard. Mindware: Tools For Smart Thinking. Penguin Books, 2015.

Wainer, Howard. The Most Dangerous Equation. American Scientist 2007.

La legge dei grandi numeri

The most dangerous equation

The “Small School Movement”

Il paradosso dell’osservatore sportivo e del colloquio di lavoro

Bibliografia:

Ti potrebbero interessare

Esploratori di idee

Ogni scelta ha un costo

La storia di General Motors e il pensiero integrativo