WARNING: post lungo ma, spero, interessante e d'aiuto.
Ho letto di recente diversi articoli e testi sull'uso dei dati statistici, le conclusioni che se ne possono trarre e gli errori piu' o meno comuni, piu' o meno gravi che si possono commettere.
Va notato che, laddove molti di questi errori sono commessi semplicemente in buona fede, magari da noi stessi, altri sono compiuti deliberatamente e in malafede da enti di vario genere che cercano di tirare acqua al loro mulino.
Si va dal banale "pulisce fino al 20% in piu' " (cosa vuol dire "fino"? e "in piu' di cosa?" della pubblicita' del detersivo a statistiche ingannevoli accuratamente architettate e propagandate da governi e grosse aziende.
Purtroppo, nulla sostituisce una preparazione formale in statistica, ma si puo' comunque migliorare le proprie conoscenze e rendersi piu' difficili da "infinocchiare o mettersi al riparo dagli errori piu' comuni.
Dunque, penso che possa essere interessante per tutti un breve riassunto dei punti salienti a cui stare particolarmente attenti, dato che viviamo in un mondo sempre piu' sovraccarico di informazione che dobbiamo per forza accogliere sempre piu' spesso in forma "sintetizzata" di statistica.
USO SOSPETTO DELLE PERCENTUALI AL POSTO DEI NUMERI.
Le statistiche sono fatte da percentuali. E' un luogo comune ben radicato nell'immaginario collettivo, e piu' o meno tutti partiamo da questo presupposto.
Che e' falso. Le statistiche sono fatte di numeri e di informazioni che li contestualizzano. Ma tali numeri sono difficili e ponderosi da gestire, e non danno necessariamente una proporzione facilmente comprensibile delle cose alla nostra mente che e' abituata a ragionare per in modo qualitativo e proporzionale, e non strettamente quantitativo.
Una percentuale e' un'elaborazione di tali numeri che fornisce un dato piu' sintetico, e proporzionale. Piu' "gradito" al nostro intelletto e piu' facile da comprendere. Ma che puo' anche nascondere la verita' in merito ai dati di origine.
-esempio-
Le statistiche sull'efficacia del Tutor: il 50% dei morti in meno nei tratti con tutor.
Che significa? Un conto e' se i morti son passati da 1000 a 500. Meraviglioso risultato. Un altro e' se i morti son passati da 2 a 1... deludente se paragonato con gli investimenti enormi messi in gioco.
Un aiuto ci puo' venire dalla classica domanda di Medea: Cui prodest? A chi giova? Se, nel caso sopra citato, il risultato fosse stato eclatante, certamente sarebbe convenuto all'ente preposto pubblicare le cifre belle chiare, invece di una proporzione. In tal caso, e' legittimo essere sospettosi. Un confronto con dati generali della situazione complessiva (e non solo dei tratti col tutor) ci puo' aiutare. In questo caso, scopriamo che la mortalita' complessiva non e' variata, e dunque, per differenza, troviamo l'inghippo.
DECONTESTUALIZZAZIONE DEI DATI
Spesso i dati vengono forniti nudi e crudi, senza uno straccio di contesto.
In questo caso, e' bene essere sospettosi.
-esempio-
Se ci viene detto che la Polvaghen Botta fa 1' e 55" sul circuito di Bailano, e che la Pialfa Mulano fa 1' e 45", apparentemente la prima va molto meglio della seconda.
L'esempio in questo caso e' volutamente grossolano, per evidenziare il concetto. Chiunque si chiederebbe se le due auto avevano cilindrate comparabili, o erano gommate in modo paragonabile, ma e' sorprendente scoprire quanti danno la cosa per scontata, anche se non e' mai stata dichiarata nero su bianco, solo perche' e' quello che si aspettano. Non parliamo poi di fattori piu' sottili: il piliota era lo stesso? Se sono due auto molto diverse come impostazione di guida, il pilota era forse piu' abituato a un tipo di auto che all'altro? Il clima era lo stesso, o in un caso pioveva e nell'altro c'era il sole?
ASSENZA DI CASI DI CONTROLLO
Chiedo venia a chi si intendesse di statistica per l'eventuale imprecisione "tecnica" della denominazione data sopra, ma ho letto in merito alla questione in inglese e non conosco l'equivalente termine tecnico in italiano.
Perche' una statistica sia significativa, deve essere misurata non "a se'", ma paragonandola a dei "control case" che servano a rappresentare uno sfondo di paragone statisticamente valido. Spesso questo non avviene, talvolta persino in studi statistici compiuti in perfetta buona fede da enti di solida reputazione.
-esempio-
In 200 incidenti di tipo A (secondo specifiche di cui all'appendice W) indagati, si e' notato che in 40 di questi erano coinvolte macchine gialle, e 5 macchine blu.
Un'affermazione simile presenta non percentuali, ma numeri, ben contestualizzati nell'appendice W, ma e' un'informazione statisticamente sensata? O e' solo un dato? Un errore tipico della mente umana e' "saltare alle conclusioni". Questo e' naturale, ed e' il prodotto di migliaia di anni d'evoluzione. Ma non e' sempre efficace o vantaggioso. Verrebbe qui da pensare che e' meglio non comprare un'auto gialla, ma comprarne una blu.
Ma la statistica non ci mette a confronto con la necessaria CONTROPARTE di tale dato: quante macchine gialle, nelle stesse condizioni NON sono state coinvolte in incidenti? Ossia: le auto gialle sono sovrarappresentate negli incidenti, o sottorappresentate, o nella media?
Potrebbero essercene tante solo perche' negli ultimi 5 anni il giallo e' il colore piu' di moda.
Per esempio, potremmo scoprire che in altri 500 casi di controllo misurati nella stessa area, nelle stesse condizioni, 300 auto gialle NON anno avuto incidenti, mentre 1 sola auto blu NON ha avuto incidenti. Dunque, scopriamo che le auto gialle sono SOTTORAPPRESENTATE e le auto blu sono SOVRARAPPRESENTATE (di 5 a 1!!) negli incidenti: e' molto meglio comprare un'auto gialla che una blu. Esattamente l'opposto della conclusione a cui eravamo giunti prima!
DISTORSIONE DEL SENSO DEI DATI
Un caso tipico e' una raccolta di dati impeccabile, analizzati correttamente per trarne poi conclusioni che sembrano valide, ma che sono in realta' completamente manipolate allo scopo di incanalare l'opinione pubblica o comunque di influenzare chi le legge con affermazioni non veritiere.
-esempio-
Di nuovo, faro' un esempio palesemente assurdo per sottolineare il concetto.
Una ricerca serissima condotta scrupolosamente dimostra che su tre malati di tumore al polmone, uno e' un fumatore.
Siccome su tre malati, due non lo sono io, industria del tabacco, dichiaro che fumare riduce del 50% le probabilita' di cancro al polmone.
Occorre sempre prestare attenzione a cio' che si legge e valutarlo spendendoci cinque minuti. Il fatto che poi, nell'esempio sopra, vi sia un palese conflitto di interesse deve far drizzare le antenne ancora di piu'.
CONFUSIONE TRA CORRELAZIONE STATISTICA E NESSO CAUSALE.
Questo e' un tipo di "confusione" spessissimo usato a scopi propagandistici, o anche un errore spesso commesso da chi si intende poco di analisi dei dati.
Un conto e' una proprieta' che viene rappresentata in una statistica e che ha una relazione di qualche genere con un fatto che si vuole misurare statisticamente, un'altro e' un nesso causale diretto ed evidente tra le due cose.
-esempio-
Un esempio classico e' la velocita'. La velocita' e' una grandezza fisica propria del concetto stesso di automobile. Dunque, ha ovviamente una relazione statistica con qualsiasi fatto dell'auto che si voglia indagare, dai consumi, al comfort, agli incidenti. Ma basta a tracciare un nesso causale tra incidenti e velocita' elevata?
Se guardiamo la quasi totalita' delle argomentazioni in merito, scopriamo che soffrono del vizio della decontestualizzazione, dell'uso esagerato delle percentuali e non citano casi di controllo. Il che ci deve naturalmente insospettire. Se andiamo a vedere una statistica formalmente corretta e ben strutturata in merito agli incidenti, come il MAIDS, scopriamo che un nesso causale, in effetti, c'e'. Ma non quello che si lascia solitamente intendere!
Si scopre che una certa percentuale (molto ridotta rispetto ad altre cause) di incidente e' dovuta a "velocita' inusuale". Che vuol dire certamente "troppo elevata". Ma anche, altrettanto certamente "troppo lenta"!
E questo ci porta all'ultimo punto.
PRECONCETTO NEL RACCOGLIERE I DATI E DOMANDE CHE INFLUENZANO LE RISPOSTE
Spesso chi raccoglie i dati di una statistica lo fa con sincero desiderio di capire e onesta' intellettuale. Ma e' facile lasciarsi influenzare dai propri preconcetti senza volerlo. In altri casi, persone intellettualmente disoneste invece di cercare dei dati da analizzare per trarne delle conclusioni (per esempio per risolvere problemi di sicurezza stradale) partono da un'idea gia' prestabilita, e cercano i fatti che possano dimostrarla.
Ovviamente un approccio di questo tipo sara' nel migliore dei casi poco utile alla soluzione del problema, e nel peggiore addirittura dannoso, se l'idea preconcetta non ha nulla a che fare con una soluzione, ma mira ad altro (suona famigliare?).
-esempio-
Negli Stati Uniti uno psicologo arrivo' a dichiarare che chi aveva armi in casa aveva 1 probabilita' su X di essere vittima violenta di un crimine (dichiarando un nesso causale tra possesso di un'arma --> morire di morte violenta). Un'analisi della "statistica" condotta appuro' che il nostro psicologo aveva condotto, si', un'indagine per verificare quante persone erano morte di morte violenta... ma solo tra coloro che possedevano armi, e NON nell'assieme della popolazione di una data area.
Dunque, i dati possono essere analizzati e presentati in modo formalmente scrupolosissimo e impeccabile, ma se sono viziati all'origine, le conclusioni che se ne traggono saranno prive di significato (o peggio)
Quindi, spero che questo post, ancorche' lunghetto, possa essere d'aiuto a tutti per interpretare meglio il mare di statistiche che ci viene propinato e, nel caso, a fare valutazioni piu' oggettive noi stessi in merito a dati che ci potra' capitare di raccogliere, evitando le trappole principali.
Ho letto di recente diversi articoli e testi sull'uso dei dati statistici, le conclusioni che se ne possono trarre e gli errori piu' o meno comuni, piu' o meno gravi che si possono commettere.
Va notato che, laddove molti di questi errori sono commessi semplicemente in buona fede, magari da noi stessi, altri sono compiuti deliberatamente e in malafede da enti di vario genere che cercano di tirare acqua al loro mulino.
Si va dal banale "pulisce fino al 20% in piu' " (cosa vuol dire "fino"? e "in piu' di cosa?" della pubblicita' del detersivo a statistiche ingannevoli accuratamente architettate e propagandate da governi e grosse aziende.
Purtroppo, nulla sostituisce una preparazione formale in statistica, ma si puo' comunque migliorare le proprie conoscenze e rendersi piu' difficili da "infinocchiare o mettersi al riparo dagli errori piu' comuni.
Dunque, penso che possa essere interessante per tutti un breve riassunto dei punti salienti a cui stare particolarmente attenti, dato che viviamo in un mondo sempre piu' sovraccarico di informazione che dobbiamo per forza accogliere sempre piu' spesso in forma "sintetizzata" di statistica.
USO SOSPETTO DELLE PERCENTUALI AL POSTO DEI NUMERI.
Le statistiche sono fatte da percentuali. E' un luogo comune ben radicato nell'immaginario collettivo, e piu' o meno tutti partiamo da questo presupposto.
Che e' falso. Le statistiche sono fatte di numeri e di informazioni che li contestualizzano. Ma tali numeri sono difficili e ponderosi da gestire, e non danno necessariamente una proporzione facilmente comprensibile delle cose alla nostra mente che e' abituata a ragionare per in modo qualitativo e proporzionale, e non strettamente quantitativo.
Una percentuale e' un'elaborazione di tali numeri che fornisce un dato piu' sintetico, e proporzionale. Piu' "gradito" al nostro intelletto e piu' facile da comprendere. Ma che puo' anche nascondere la verita' in merito ai dati di origine.
-esempio-
Le statistiche sull'efficacia del Tutor: il 50% dei morti in meno nei tratti con tutor.
Che significa? Un conto e' se i morti son passati da 1000 a 500. Meraviglioso risultato. Un altro e' se i morti son passati da 2 a 1... deludente se paragonato con gli investimenti enormi messi in gioco.
Un aiuto ci puo' venire dalla classica domanda di Medea: Cui prodest? A chi giova? Se, nel caso sopra citato, il risultato fosse stato eclatante, certamente sarebbe convenuto all'ente preposto pubblicare le cifre belle chiare, invece di una proporzione. In tal caso, e' legittimo essere sospettosi. Un confronto con dati generali della situazione complessiva (e non solo dei tratti col tutor) ci puo' aiutare. In questo caso, scopriamo che la mortalita' complessiva non e' variata, e dunque, per differenza, troviamo l'inghippo.
DECONTESTUALIZZAZIONE DEI DATI
Spesso i dati vengono forniti nudi e crudi, senza uno straccio di contesto.
In questo caso, e' bene essere sospettosi.
-esempio-
Se ci viene detto che la Polvaghen Botta fa 1' e 55" sul circuito di Bailano, e che la Pialfa Mulano fa 1' e 45", apparentemente la prima va molto meglio della seconda.
L'esempio in questo caso e' volutamente grossolano, per evidenziare il concetto. Chiunque si chiederebbe se le due auto avevano cilindrate comparabili, o erano gommate in modo paragonabile, ma e' sorprendente scoprire quanti danno la cosa per scontata, anche se non e' mai stata dichiarata nero su bianco, solo perche' e' quello che si aspettano. Non parliamo poi di fattori piu' sottili: il piliota era lo stesso? Se sono due auto molto diverse come impostazione di guida, il pilota era forse piu' abituato a un tipo di auto che all'altro? Il clima era lo stesso, o in un caso pioveva e nell'altro c'era il sole?
ASSENZA DI CASI DI CONTROLLO
Chiedo venia a chi si intendesse di statistica per l'eventuale imprecisione "tecnica" della denominazione data sopra, ma ho letto in merito alla questione in inglese e non conosco l'equivalente termine tecnico in italiano.
Perche' una statistica sia significativa, deve essere misurata non "a se'", ma paragonandola a dei "control case" che servano a rappresentare uno sfondo di paragone statisticamente valido. Spesso questo non avviene, talvolta persino in studi statistici compiuti in perfetta buona fede da enti di solida reputazione.
-esempio-
In 200 incidenti di tipo A (secondo specifiche di cui all'appendice W) indagati, si e' notato che in 40 di questi erano coinvolte macchine gialle, e 5 macchine blu.
Un'affermazione simile presenta non percentuali, ma numeri, ben contestualizzati nell'appendice W, ma e' un'informazione statisticamente sensata? O e' solo un dato? Un errore tipico della mente umana e' "saltare alle conclusioni". Questo e' naturale, ed e' il prodotto di migliaia di anni d'evoluzione. Ma non e' sempre efficace o vantaggioso. Verrebbe qui da pensare che e' meglio non comprare un'auto gialla, ma comprarne una blu.
Ma la statistica non ci mette a confronto con la necessaria CONTROPARTE di tale dato: quante macchine gialle, nelle stesse condizioni NON sono state coinvolte in incidenti? Ossia: le auto gialle sono sovrarappresentate negli incidenti, o sottorappresentate, o nella media?
Potrebbero essercene tante solo perche' negli ultimi 5 anni il giallo e' il colore piu' di moda.
Per esempio, potremmo scoprire che in altri 500 casi di controllo misurati nella stessa area, nelle stesse condizioni, 300 auto gialle NON anno avuto incidenti, mentre 1 sola auto blu NON ha avuto incidenti. Dunque, scopriamo che le auto gialle sono SOTTORAPPRESENTATE e le auto blu sono SOVRARAPPRESENTATE (di 5 a 1!!) negli incidenti: e' molto meglio comprare un'auto gialla che una blu. Esattamente l'opposto della conclusione a cui eravamo giunti prima!
DISTORSIONE DEL SENSO DEI DATI
Un caso tipico e' una raccolta di dati impeccabile, analizzati correttamente per trarne poi conclusioni che sembrano valide, ma che sono in realta' completamente manipolate allo scopo di incanalare l'opinione pubblica o comunque di influenzare chi le legge con affermazioni non veritiere.
-esempio-
Di nuovo, faro' un esempio palesemente assurdo per sottolineare il concetto.
Una ricerca serissima condotta scrupolosamente dimostra che su tre malati di tumore al polmone, uno e' un fumatore.
Siccome su tre malati, due non lo sono io, industria del tabacco, dichiaro che fumare riduce del 50% le probabilita' di cancro al polmone.
Occorre sempre prestare attenzione a cio' che si legge e valutarlo spendendoci cinque minuti. Il fatto che poi, nell'esempio sopra, vi sia un palese conflitto di interesse deve far drizzare le antenne ancora di piu'.
CONFUSIONE TRA CORRELAZIONE STATISTICA E NESSO CAUSALE.
Questo e' un tipo di "confusione" spessissimo usato a scopi propagandistici, o anche un errore spesso commesso da chi si intende poco di analisi dei dati.
Un conto e' una proprieta' che viene rappresentata in una statistica e che ha una relazione di qualche genere con un fatto che si vuole misurare statisticamente, un'altro e' un nesso causale diretto ed evidente tra le due cose.
-esempio-
Un esempio classico e' la velocita'. La velocita' e' una grandezza fisica propria del concetto stesso di automobile. Dunque, ha ovviamente una relazione statistica con qualsiasi fatto dell'auto che si voglia indagare, dai consumi, al comfort, agli incidenti. Ma basta a tracciare un nesso causale tra incidenti e velocita' elevata?
Se guardiamo la quasi totalita' delle argomentazioni in merito, scopriamo che soffrono del vizio della decontestualizzazione, dell'uso esagerato delle percentuali e non citano casi di controllo. Il che ci deve naturalmente insospettire. Se andiamo a vedere una statistica formalmente corretta e ben strutturata in merito agli incidenti, come il MAIDS, scopriamo che un nesso causale, in effetti, c'e'. Ma non quello che si lascia solitamente intendere!
Si scopre che una certa percentuale (molto ridotta rispetto ad altre cause) di incidente e' dovuta a "velocita' inusuale". Che vuol dire certamente "troppo elevata". Ma anche, altrettanto certamente "troppo lenta"!
E questo ci porta all'ultimo punto.
PRECONCETTO NEL RACCOGLIERE I DATI E DOMANDE CHE INFLUENZANO LE RISPOSTE
Spesso chi raccoglie i dati di una statistica lo fa con sincero desiderio di capire e onesta' intellettuale. Ma e' facile lasciarsi influenzare dai propri preconcetti senza volerlo. In altri casi, persone intellettualmente disoneste invece di cercare dei dati da analizzare per trarne delle conclusioni (per esempio per risolvere problemi di sicurezza stradale) partono da un'idea gia' prestabilita, e cercano i fatti che possano dimostrarla.
Ovviamente un approccio di questo tipo sara' nel migliore dei casi poco utile alla soluzione del problema, e nel peggiore addirittura dannoso, se l'idea preconcetta non ha nulla a che fare con una soluzione, ma mira ad altro (suona famigliare?).
-esempio-
Negli Stati Uniti uno psicologo arrivo' a dichiarare che chi aveva armi in casa aveva 1 probabilita' su X di essere vittima violenta di un crimine (dichiarando un nesso causale tra possesso di un'arma --> morire di morte violenta). Un'analisi della "statistica" condotta appuro' che il nostro psicologo aveva condotto, si', un'indagine per verificare quante persone erano morte di morte violenta... ma solo tra coloro che possedevano armi, e NON nell'assieme della popolazione di una data area.
Dunque, i dati possono essere analizzati e presentati in modo formalmente scrupolosissimo e impeccabile, ma se sono viziati all'origine, le conclusioni che se ne traggono saranno prive di significato (o peggio)
Quindi, spero che questo post, ancorche' lunghetto, possa essere d'aiuto a tutti per interpretare meglio il mare di statistiche che ci viene propinato e, nel caso, a fare valutazioni piu' oggettive noi stessi in merito a dati che ci potra' capitare di raccogliere, evitando le trappole principali.