Statistiche ingannevoli...

99octane · 8 Ottobre 2009

WARNING: post lungo ma, spero, interessante e d'aiuto.

Ho letto di recente diversi articoli e testi sull'uso dei dati statistici, le conclusioni che se ne possono trarre e gli errori piu' o meno comuni, piu' o meno gravi che si possono commettere.
Va notato che, laddove molti di questi errori sono commessi semplicemente in buona fede, magari da noi stessi, altri sono compiuti deliberatamente e in malafede da enti di vario genere che cercano di tirare acqua al loro mulino.
Si va dal banale "pulisce fino al 20% in piu' " (cosa vuol dire "fino"? e "in piu' di cosa?&quot

della pubblicita' del detersivo a statistiche ingannevoli accuratamente architettate e propagandate da governi e grosse aziende.
Purtroppo, nulla sostituisce una preparazione formale in statistica, ma si puo' comunque migliorare le proprie conoscenze e rendersi piu' difficili da "infinocchiare o mettersi al riparo dagli errori piu' comuni.
Dunque, penso che possa essere interessante per tutti un breve riassunto dei punti salienti a cui stare particolarmente attenti, dato che viviamo in un mondo sempre piu' sovraccarico di informazione che dobbiamo per forza accogliere sempre piu' spesso in forma "sintetizzata" di statistica.

USO SOSPETTO DELLE PERCENTUALI AL POSTO DEI NUMERI.
Le statistiche sono fatte da percentuali. E' un luogo comune ben radicato nell'immaginario collettivo, e piu' o meno tutti partiamo da questo presupposto.
Che e' falso. Le statistiche sono fatte di numeri e di informazioni che li contestualizzano. Ma tali numeri sono difficili e ponderosi da gestire, e non danno necessariamente una proporzione facilmente comprensibile delle cose alla nostra mente che e' abituata a ragionare per in modo qualitativo e proporzionale, e non strettamente quantitativo.
Una percentuale e' un'elaborazione di tali numeri che fornisce un dato piu' sintetico, e proporzionale. Piu' "gradito" al nostro intelletto e piu' facile da comprendere. Ma che puo' anche nascondere la verita' in merito ai dati di origine.
-esempio-
Le statistiche sull'efficacia del Tutor: il 50% dei morti in meno nei tratti con tutor.
Che significa? Un conto e' se i morti son passati da 1000 a 500. Meraviglioso risultato. Un altro e' se i morti son passati da 2 a 1... deludente se paragonato con gli investimenti enormi messi in gioco.

Un aiuto ci puo' venire dalla classica domanda di Medea: Cui prodest? A chi giova? Se, nel caso sopra citato, il risultato fosse stato eclatante, certamente sarebbe convenuto all'ente preposto pubblicare le cifre belle chiare, invece di una proporzione. In tal caso, e' legittimo essere sospettosi. Un confronto con dati generali della situazione complessiva (e non solo dei tratti col tutor) ci puo' aiutare. In questo caso, scopriamo che la mortalita' complessiva non e' variata, e dunque, per differenza, troviamo l'inghippo.

DECONTESTUALIZZAZIONE DEI DATI
Spesso i dati vengono forniti nudi e crudi, senza uno straccio di contesto.
In questo caso, e' bene essere sospettosi.

-esempio-
Se ci viene detto che la Polvaghen Botta fa 1' e 55" sul circuito di Bailano, e che la Pialfa Mulano fa 1' e 45", apparentemente la prima va molto meglio della seconda.

L'esempio in questo caso e' volutamente grossolano, per evidenziare il concetto. Chiunque si chiederebbe se le due auto avevano cilindrate comparabili, o erano gommate in modo paragonabile, ma e' sorprendente scoprire quanti danno la cosa per scontata, anche se non e' mai stata dichiarata nero su bianco, solo perche' e' quello che si aspettano. Non parliamo poi di fattori piu' sottili: il piliota era lo stesso? Se sono due auto molto diverse come impostazione di guida, il pilota era forse piu' abituato a un tipo di auto che all'altro? Il clima era lo stesso, o in un caso pioveva e nell'altro c'era il sole?

ASSENZA DI CASI DI CONTROLLO
Chiedo venia a chi si intendesse di statistica per l'eventuale imprecisione "tecnica" della denominazione data sopra, ma ho letto in merito alla questione in inglese e non conosco l'equivalente termine tecnico in italiano.
Perche' una statistica sia significativa, deve essere misurata non "a se'", ma paragonandola a dei "control case" che servano a rappresentare uno sfondo di paragone statisticamente valido. Spesso questo non avviene, talvolta persino in studi statistici compiuti in perfetta buona fede da enti di solida reputazione.

-esempio-
In 200 incidenti di tipo A (secondo specifiche di cui all'appendice W) indagati, si e' notato che in 40 di questi erano coinvolte macchine gialle, e 5 macchine blu.

Un'affermazione simile presenta non percentuali, ma numeri, ben contestualizzati nell'appendice W, ma e' un'informazione statisticamente sensata? O e' solo un dato? Un errore tipico della mente umana e' "saltare alle conclusioni". Questo e' naturale, ed e' il prodotto di migliaia di anni d'evoluzione. Ma non e' sempre efficace o vantaggioso. Verrebbe qui da pensare che e' meglio non comprare un'auto gialla, ma comprarne una blu.
Ma la statistica non ci mette a confronto con la necessaria CONTROPARTE di tale dato: quante macchine gialle, nelle stesse condizioni NON sono state coinvolte in incidenti? Ossia: le auto gialle sono sovrarappresentate negli incidenti, o sottorappresentate, o nella media?
Potrebbero essercene tante solo perche' negli ultimi 5 anni il giallo e' il colore piu' di moda.
Per esempio, potremmo scoprire che in altri 500 casi di controllo misurati nella stessa area, nelle stesse condizioni, 300 auto gialle NON anno avuto incidenti, mentre 1 sola auto blu NON ha avuto incidenti. Dunque, scopriamo che le auto gialle sono SOTTORAPPRESENTATE e le auto blu sono SOVRARAPPRESENTATE (di 5 a 1!!) negli incidenti: e' molto meglio comprare un'auto gialla che una blu. Esattamente l'opposto della conclusione a cui eravamo giunti prima!

DISTORSIONE DEL SENSO DEI DATI
Un caso tipico e' una raccolta di dati impeccabile, analizzati correttamente per trarne poi conclusioni che sembrano valide, ma che sono in realta' completamente manipolate allo scopo di incanalare l'opinione pubblica o comunque di influenzare chi le legge con affermazioni non veritiere.

-esempio-
Di nuovo, faro' un esempio palesemente assurdo per sottolineare il concetto.
Una ricerca serissima condotta scrupolosamente dimostra che su tre malati di tumore al polmone, uno e' un fumatore.
Siccome su tre malati, due non lo sono io, industria del tabacco, dichiaro che fumare riduce del 50% le probabilita' di cancro al polmone.

Occorre sempre prestare attenzione a cio' che si legge e valutarlo spendendoci cinque minuti. Il fatto che poi, nell'esempio sopra, vi sia un palese conflitto di interesse deve far drizzare le antenne ancora di piu'.

CONFUSIONE TRA CORRELAZIONE STATISTICA E NESSO CAUSALE.
Questo e' un tipo di "confusione" spessissimo usato a scopi propagandistici, o anche un errore spesso commesso da chi si intende poco di analisi dei dati.
Un conto e' una proprieta' che viene rappresentata in una statistica e che ha una relazione di qualche genere con un fatto che si vuole misurare statisticamente, un'altro e' un nesso causale diretto ed evidente tra le due cose.

-esempio-
Un esempio classico e' la velocita'. La velocita' e' una grandezza fisica propria del concetto stesso di automobile. Dunque, ha ovviamente una relazione statistica con qualsiasi fatto dell'auto che si voglia indagare, dai consumi, al comfort, agli incidenti. Ma basta a tracciare un nesso causale tra incidenti e velocita' elevata?

Se guardiamo la quasi totalita' delle argomentazioni in merito, scopriamo che soffrono del vizio della decontestualizzazione, dell'uso esagerato delle percentuali e non citano casi di controllo. Il che ci deve naturalmente insospettire. Se andiamo a vedere una statistica formalmente corretta e ben strutturata in merito agli incidenti, come il MAIDS, scopriamo che un nesso causale, in effetti, c'e'. Ma non quello che si lascia solitamente intendere!
Si scopre che una certa percentuale (molto ridotta rispetto ad altre cause) di incidente e' dovuta a "velocita' inusuale". Che vuol dire certamente "troppo elevata". Ma anche, altrettanto certamente "troppo lenta"!
E questo ci porta all'ultimo punto.

PRECONCETTO NEL RACCOGLIERE I DATI E DOMANDE CHE INFLUENZANO LE RISPOSTE
Spesso chi raccoglie i dati di una statistica lo fa con sincero desiderio di capire e onesta' intellettuale. Ma e' facile lasciarsi influenzare dai propri preconcetti senza volerlo. In altri casi, persone intellettualmente disoneste invece di cercare dei dati da analizzare per trarne delle conclusioni (per esempio per risolvere problemi di sicurezza stradale) partono da un'idea gia' prestabilita, e cercano i fatti che possano dimostrarla.
Ovviamente un approccio di questo tipo sara' nel migliore dei casi poco utile alla soluzione del problema, e nel peggiore addirittura dannoso, se l'idea preconcetta non ha nulla a che fare con una soluzione, ma mira ad altro (suona famigliare?).

-esempio-
Negli Stati Uniti uno psicologo arrivo' a dichiarare che chi aveva armi in casa aveva 1 probabilita' su X di essere vittima violenta di un crimine (dichiarando un nesso causale tra possesso di un'arma --&gt morire di morte violenta). Un'analisi della "statistica" condotta appuro' che il nostro psicologo aveva condotto, si', un'indagine per verificare quante persone erano morte di morte violenta... ma solo tra coloro che possedevano armi, e NON nell'assieme della popolazione di una data area.

Dunque, i dati possono essere analizzati e presentati in modo formalmente scrupolosissimo e impeccabile, ma se sono viziati all'origine, le conclusioni che se ne traggono saranno prive di significato (o peggio)

Quindi, spero che questo post, ancorche' lunghetto, possa essere d'aiuto a tutti per interpretare meglio il mare di statistiche che ci viene propinato e, nel caso, a fare valutazioni piu' oggettive noi stessi in merito a dati che ci potra' capitare di raccogliere, evitando le trappole principali.

Gunsite · 8 Ottobre 2009

le statistiche bisogna saperle fare e pure leggere, spesso sono ingannevoli

testerr · 8 Ottobre 2009

troppo lunga da leggere....

99octane · 8 Ottobre 2009

testerr ha scritto:
troppo lunga da leggere....

Mamma mia... non arriva alla pagina...

La refrattarieta' degli italiani alla lettura mi lascia sempre sconcertato (e' superata solo dagli americani...

)

RobyTs67 · 8 Ottobre 2009

Ci sono le verita,ci sono le bugie e ci sono le statistiche.

Epme · 8 Ottobre 2009

testerr ha scritto:
troppo lunga da leggere....

Statisticamente il 99% dei Forumisti abbandonerà la lettura dopo la terza riga ...

CCMORSEL · 9 Ottobre 2009

dopo averlo letto tutto

sarei curioso di sapere perche' c'e' gente che fa' le statistiche

anche perche' penso tutti cogliamo il pseudo inganno quando ci viene propinato una percentuale o un numero per confrontare due prodotti o per convincerci su un certo studio
lampante e' il caso del detersivo che lava il 20 % in piu' ( da bianco passa a super bianco

o da igienizzato passa allo sterminio dei batteri a distanza

)
e chi non fuma ,ma fa' giornalmente decappaggio dell'acciaio :?: :?: :?:
sicuramente le statistiche sono utilissime ,ma vanno fornite insieme a dati e contestualizzazioni del caso in esame

ciao madmax

provocantibus · 9 Ottobre 2009

Complimenti, hai trattato un argomento ostico e spinoso con indubbia competenza.
Ho sempre guardato con sospetto alle statistiche e ai numeri in generale, sono sempre stati strumenti micidiali in mano a chi fa della disinformazione un arte.
Sicuramente la statistica, è scienza importante e utilissima se utulizzata in modo corretto ma, purtroppo, è troppo spesso preda degli interessi di corporazioni lobbistiche, potentati vari e organi politici e di controllo
Ciao

arhat · 9 Ottobre 2009

La statistica è materia in perenne gara con la politica, alla quale contende un certo, invidiabile o meno, primato.

belpietro · 11 Ottobre 2009

giuro che l'ho letto tutto, con attenzione

ma non mi sono smosso dalla mia convinzione: la statistica è quella scienza secondo la quale se io mangio un pollo e tu muori di fame, abbiamo mangiato mezzo pollo ciascuno.
detto così, è più grezza.
ma il concetto di leggere "la copertina" e non di pesare i numeri che ci stanno dietro, mi pare simile

testerr · 11 Ottobre 2009

99octane ha scritto:
testerr ha scritto:

troppo lunga da leggere....

Clicca per allargare...

Mamma mia... non arriva alla pagina...
La refrattarieta' degli italiani alla lettura mi lascia sempre sconcertato (e' superata solo dagli americani... )

che ti devo dire! su un monitor non riesco a leggere cose lunghe; per questo c'è la carta stampata.

marimasse · 12 Ottobre 2009

Basta parlare 10 minuti con un insegnante di statistica (o professionista serio del ramo) per avere la conferma, se mai ce ne fosse bisogno, che un sondaggio o una qualunque ricerca possono essere realizzati facendo in modo che i dati risultanti siano di un certo tipo, per esempio gradito al committente.
Il tutto senza alcuna formale truffa o falsificazione dei dati, ma semplicemente organizzando in maniera opportuna le numerose variabili che governano il procedimento: metodi di raccolta dei dati, tipologia dei dati raccolti, quantità dei dati raccolti, metodo di elaborazione dei dati, metodo di presentazione dei risultati ecc. ecc.

Perchè il confronto tra i risultati di due diverse ricerche avesse senso bisognerebbe che entrambe fossero state fatte esattamente alla stessa maniera, cosa che in pratica mai succede.

Se uno vende le mele a 1.50? al kg e un altro le vende a 3? la dozzina, credo che ben pochi consumatori saprebbero individuare, sulla base di quel solo dato, l'offerta migliore delle due; quasi tutti diremmo subito che si tratta di un confronto senza senso. Quando invece un trucchetto analogo viene usato in ambiti di assai maggiore complessità, per avere una percezione altrettanto chiara bisognerebbe essere esperti di statistica o, per lo meno, avere uno sviluppato e allenato senso critico non troppo inquinato da simpatie e partigianerie varie.

Oggi le statistiche sono di gran moda (come la pubblicità, guarda caso) e vengono usate ad ogni piè sospinto, ad esempio per "dimostrare" la bontà di una legge, la necessità di un certo provvedimento, l'opportunità di una certo obbligo o divieto imposto e così via. Il loro presunto punto di forza, che le renderebbe attendibili e imparziali, starebbe tutto nella nobile frase, di grande effetto, secondo cui "i numeri non mentono".

I numeri, in effetti, non mentono, non possono farlo.
A mentire sono, troppo spesso, le persone che quei numeri predispongono, scelgono, confezionano e diffondono.

Francesco83 · 12 Ottobre 2009

belpietro ha scritto:
giuro che l'ho letto tutto, con attenzione

ma non mi sono smosso dalla mia convinzione: la statistica è quella scienza secondo la quale se io mangio un pollo e tu muori di fame, abbiamo mangiato mezzo pollo ciascuno.
detto così, è più grezza.
ma il concetto di leggere "la copertina" e non di pesare i numeri che ci stanno dietro, mi pare simile

O anche se metto la testa in freezer e i piedi in forno, starò a una intermedia temperatura piacevole

i numeri son numeri, sono le persone che li devono interpretare! proprio come le leggi, magari scritte bene ma poi interpretate male

Statistiche ingannevoli...

99octane

0

Gunsite

0

testerr

Guest

99octane

0

RobyTs67

0

Epme

0

CCMORSEL

0

provocantibus

0

arhat

0

belpietro

0

testerr

Guest

marimasse

0

Francesco83

0

Discussioni popolari

La "Transizione": vantaggi, svantaggi,...

Avvistamenti

Scénic XMod - Topic Ufficiale

Alfa Romeo Giulia 2016-2019