Experiment testförutsägelser. Dessa förutsägelser är ofta numeriska, vilket innebär att, när forskare samlar in data, förväntar de sig att siffrorna bryts ner på ett visst sätt. Verkliga data matchar sällan exakt de förutsägelser forskarna gör, så forskare behöver ett test för att tala om för dem om skillnaden mellan observerade och förväntade siffror beror på en slumpmässig slump, eller på grund av någon oförutsedd faktor som kommer att tvinga forskaren att justera den underliggande teorin . Ett chi-kvadrattest är ett statistiskt verktyg som forskare använder för detta ändamål.
Typen av data som krävs
Du behöver kategoriska data för att använda ett chi-kvadrattest. Ett exempel på kategorisk data är antalet personer som svarade på en fråga ”ja” kontra antalet personer som svarade på frågan ”nej” (två kategorier), eller antalet grodor i en population som är gröna, gula eller grå ( tre kategorier). Du kan inte använda ett chi-kvadrattest på kontinuerliga data, som kan samlas in från en undersökning som frågar människor hur långa de är. Från en sådan undersökning skulle du få ett brett utbud av höjder. Men om du delar upp höjderna i kategorier som ”under 6 fot lång” och ”6 fot lång och över”, kan du sedan använda ett chi-kvadrattest på data.
Ett passformstest är ett vanligt, och kanske det enklaste, test som utförs med chi-kvadratstatistiken. I ett passformstest gör forskaren en specifik förutsägelse om siffrorna hon förväntar sig att se i varje kategori av hennes data. Hon samlar sedan in verklig data — kallad observerad data — och använder chi-kvadrattestet för att se om de observerade data matchar hennes förväntningar.
Tänk dig till exempel att en biolog studerar arvsmönstren hos en groda. Bland 100 avkommor av en uppsättning grodföräldrar leder biologens genetiska modell till att hon förväntar sig 25 gula avkommor, 50 gröna avkommor och 25 grå avkommor. Det hon faktiskt observerar är 20 gula avkommor, 52 gröna avkommor och 28 grå avkommor. Stöds hennes förutsägelse eller är hennes genetiska modell felaktig? Hon kan använda ett chi-kvadrattest för att ta reda på det.
Beräkna chi-kvadratstatistiken
Börja beräkna chi-kvadratstatistiken genom att subtrahera varje förväntat värde från dess motsvarande observerade värde och kvadrera varje resultat. Beräkningen för exemplet med grodans avkomma skulle se ut så här:
gul = ( 20 – 25)^2 = 25 gröna = (52 – 50)^2 = 4 grå = (28 – 25)^2 = 9
Dela nu varje resultat med dess motsvarande förväntade värde.
gul = 25 ÷ 25 = 1 grön = 4 ÷ 50 = 0,08 grå = 9 ÷ 25 = 0,36
Lägg slutligen samman svaren från föregående steg.
chi-kvadrat = 1 + 0,08 + 0,36 = 1,44
Tolka Chi-Square-statistiken
Chi-kvadratstatistiken berättar hur olika dina observerade värden var från dina förutsagda värden. Ju högre siffra, desto större skillnad. Du kan avgöra om ditt chi-kvadratvärde är för högt eller tillräckligt lågt för att stödja din förutsägelse genom att se om det är under ett visst kritiskt värde
på en chi-kvadratfördelningstabell. Den här tabellen matchar chi-kvadratvärden med sannolikheter, kallade p-värden. Specifikt talar tabellen om sannolikheten för att skillnaderna mellan dina observerade och förväntade värden helt enkelt beror på slumpmässig slump eller om någon annan faktor är närvarande. För ett passformstest, om p-värdet är 0,05 eller mindre, måste du förkasta din förutsägelse.
Du måste bestämma frihetsgraderna (df) i dina data innan du kan slå upp det kritiska chi-kvadratvärdet i en distributionstabell. Frihetsgrader beräknas genom att subtrahera 1 från antalet kategorier i din data. Det finns tre kategorier i det här exemplet, så det finns två frihetsgrader. En blick på denna chi-kvadratfördelningstabell visar att för 2 frihetsgrader är det kritiska värdet för en sannolikhet på 0,05 5,99. Det betyder att så länge som ditt beräknade chi-kvadratvärde är mindre än 5,99, är dina förväntade värden, och därmed den underliggande teorin, giltiga och stöds. Eftersom chi-kvadratstatistiken för grodans avkommadata var 1,44, kan biologen acceptera hennes genetiska modell.