Statistisk korrelation, orsakssamband och lurande variabler

En dag vid lunchen åt en ung kvinna en stor skål med glass, och en kollega från fakulteten gick fram till henne och sa: ”Du måste vara försiktig , det finns en hög statistisk korrelation mellan glass och drunkning.” Hon måste ha gett honom en förvirrad blick, eftersom han utvecklade lite mer: ”Dagar med mest försäljning av glass gör också att de flesta drunknar.”

När hon var klar med min glass diskuterade de två kollegorna det faktum att bara för att en variabel statistiskt är förknippad med en annan, betyder det inte att den ena är orsaken till den andra Ibland döljer sig en variabel i bakgrunden. I det här fallet gömmer sig årets dag i data. Mer glass säljs på varma sommardagar än snöiga vinterdagar. Fler människor simmar på sommaren, och därmed fler drunkna på sommaren än på vintern

Se upp för lurande variabler

Ovanstående anekdot är ett utmärkt exempel på vad som kallas en lurande variabel. Som namnet antyder kan en lurande variabel vara svårfångad och svår att upptäcka . När vi upptäcker att två numeriska datamängder är starkt korrelerade bör vi alltid fråga: ”Kan det vara något annat som orsakar detta förhållande?”

  • Följande är exempel på stark korrelation orsakad av en lurande variabel:

  • Det genomsnittliga antalet datorer per person i ett land och landets medellivslängd.

    Antalet brandmän vid en brand och skadorna orsakade av branden.

  • Längden på en grundskoleelev och hans eller hennes läsnivå.
  • I alla dessa fall är förhållandet mellan variablerna mycket starkt. Detta indikeras vanligtvis av en korrelation koefficient som har ett värde nära 1 eller -1. Det spelar ingen roll hur nära denna korrelationskoefficient är 1 eller -1, denna statistik kan inte visa att en variabel är orsaken till den andra variabeln.

    Detektion av lurande variabler

    Till sin natur är lurande variabler svåra att upptäcka t. En strategi, om tillgänglig, är att undersöka vad som händer med datan över tiden. Detta kan avslöja säsongsbetonade trender, som exemplet med glass, som blir otydliga när uppgifterna klumpas ihop. En annan metod är att titta på extremvärden och försöka avgöra vad som skiljer dem från andra data. Ibland ger detta en fingervisning om vad som händer bakom kulisserna. Det bästa tillvägagångssättet är att vara proaktiv; ifrågasätt antaganden och designexperiment noggrant.

    Varför spelar det någon roll?

    Antag i öppningsscenariot en välmenande men statistiskt oinformerad kongressledamot föreslog att all glass skulle förbjudas för att förhindra drunkning. Ett sådant lagförslag skulle vara till besvär för stora delar av befolkningen, tvinga flera företag att gå i konkurs och ta bort tusentals jobb när landets glassindustri lades ner. Trots de bästa avsikterna skulle detta lagförslag inte minska antalet drunkningsdöda.

    Om det exemplet verkar lite för långsökt, överväg följande, vilket faktiskt hände. I början av 1900-talet märkte läkare att vissa spädbarn mystiskt dör i sömnen av upplevda andningsproblem. Detta kallades spjälsängdöd och är nu känt som SIDS. En sak som stack ut från obduktioner gjorda på de som dog i SIDS var en förstorad tymus, en körtel som ligger i bröstet. Från sambandet mellan förstorade brässkörtlar hos spädbarn av SIDS antog läkarna att en onormalt stor tymus orsakade felaktig andning och död.

    Den föreslagna lösningen var att krympa tymus med hög strålning, eller att ta bort körteln helt . Dessa ingrepp hade en hög dödlighet och ledde till ännu fler dödsfall. Det som är tråkigt är att dessa operationer inte behövde ha utförts. Efterföljande forskning har visat att dessa läkare hade fel i sina antaganden och att tymus inte är ansvarig för SIDS.

    Korrelation innebär inte orsakssamband

    Ovanstående bör få oss att pausa när vi tror att statistiska bevis används för att motivera saker som medicinska regimer, lagstiftning och utbildningsförslag. Det är viktigt att det görs ett bra arbete med att tolka data, särskilt om resultat som involverar korrelation kommer att påverka andras liv.

    När någon säger, ”Studier visar att A är en orsak till B och viss statistik säkerhetskopiera det,” var redo att svara, ”korrelation innebär inte orsakssamband.” Håll alltid utkik efter vad som gömmer sig under data.

    Lämna ett svar

    Relaterade Inlägg

    • The Notorious Benedict Arnold av Steve Sheinkin

    • En recension av Diary of a Wimpy Kid: Rodrick Rules

    • Mother Goose Board Böcker för spädbarn och småbarn

    • Bokrecension: The Librarian of Basra

    • The Magic Tree House-bokserien av Mary Pope Osborne

    • The Strange Case of Origami Yoda: Bokrecension