Här är ett användbart exempel på ett Chi-Square Goodness of Fit-test

3 Mins Read

Chi-square goodness of fit-testet är användbart för att jämföra en teoretisk modell med observerade data. Detta test är en typ av det mer allmänna chi-square-testet. Som med vilket ämne som helst inom matematik eller statistik kan det vara till hjälp att arbeta igenom ett exempel för att förstå vad som händer, genom ett exempel på chi-kvadrat-testet för god passform.

Tänk på ett standardpaket med mjölkchoklad M&Ms. Det finns sex olika färger: röd, orange, gul, grön, blå och brun. Anta att vi är nyfikna på fördelningen av dessa färger och frågar, förekommer alla sex färgerna lika proportion? Detta är den typ av fråga som kan besvaras med ett passformstest.

Inställning
Vi börjar med att notera inställningen och varför godhetstestet är lämpligt. Vår variabel färg är kategorisk. Det finns sex nivåer av denna variabel, motsvarande de sex färger som är möjliga. Vi kommer att anta att de M&M vi räknar kommer att vara ett enkelt slumpmässigt urval från populationen av alla M&M.
Noll- och alternativa hypoteser
Noll- och alternativhypoteserna för vårt godhetstest återspeglar det antagande som vi gör om befolkningen. Eftersom vi testar om färgerna förekommer i lika stora proportioner kommer vår nollhypotes att vara att alla färger förekommer i samma proportion. Mer formellt, om p₁
är populationens andel av röda godis, p₂ är den befolkningsandel av apelsingodis, och så vidare, då är nollhypotesen att p1 = p₂ = . . . = p6 = 1/6.
Den alternativa hypotesen är att minst en av populationsproportionerna inte är lika med 1/6.
Faktiska och förväntade antal
Det faktiska antalet är antalet godisar för var och en av de sex färgerna. Det förväntade antalet hänvisar till vad vi skulle förvänta oss om nollhypotesen var sann. Vi låter n vara storleken på vårt urval. Det förväntade antalet röda godis är p₁ n eller n
/6. Faktum är att för det här exemplet är det förväntade antalet godis för var och en av de sex färgerna helt enkelt n
gånger pi
, eller n/6.
Chi-kvadratstatistik för god passform
Vi kommer nu att beräkna en chi-kvadratstatistik för en specifikt exempel. Anta att vi har ett enkelt slumpmässigt urval av 600 M&M-godisar med följande fördelning:
212 av godisarna är blå.
147 av godisarna är orange.
103 av godisarna är gröna.
50 av godisarna är röda.
46 av godisarna är gula.
42 av godisarna är bruna.
Om nollhypotesen var sann, skulle det förväntade antalet för var och en av dessa färger vara (1/6) x 600 = 100. Vi använder nu detta i vår beräkning av chi-kvadratstatistiken.
Vi beräknar bidraget till vår statistik från var och en av färgerna. Var och en har formen (Faktisk – Förväntad)²/Förväntad.:
För blått har vi (212 – 100)
2
/100 = 125,44
För orange har vi (147 – 100)²
/100 = 22,09
För grönt har vi (103 – 100)
2
/100 = 0,09
För rött har vi (50 – 100)
2
/100 = 25
För gult har vi (46 – 100)
2^{/100 = 29,16}
För brunt har vi (42 – 100)
2
/100 = 33,64
Vi summerar sedan alla dessa bidrag och bestämmer att vår chi-kvadratstatistik är 125,44 + 22,09 + 0,09 + 25 +29,16 + 33,64 = 235,42.
Grader of Freedom
Antalet frihetsgrader för ett passformstest är helt enkelt en mindre än antalet nivåer i vår variabel. Eftersom det fanns sex färger har vi 6 – 1 = 5 frihetsgrader.
Chi-kvadrattabell och P-värde
Chi-kvadratstatistiken på 235,42 som vi beräknat motsvarar en viss plats på en chi-kvadratfördelning med fem frihetsgrader. Vi behöver nu ett p-värde för att bestämma sannolikheten för att få en teststatistik som är minst lika extrem som 235,42 samtidigt som vi antar att nollhypotesen är sann.
Microsofts Excel kan användas för denna beräkning. Vi finner att vår teststatistik med fem frihetsgrader har ett p-värde på 7,29 x 10^-49
. Detta är ett extremt litet p-värde.
Beslutsregel
Vi fattar vårt beslut om vi ska förkasta nollhypotesen baserat på storleken på p-värdet. Eftersom vi har ett mycket litet p-värde förkastar vi nollhypotesen. Vi drar slutsatsen att M&M inte är jämnt fördelade mellan de sex olika färgerna. En uppföljningsanalys skulle kunna användas för att bestämma ett konfidensintervall för populationsandelen av en viss färg.

Du måste vara inloggad för att publicera en kommentar.

Meny
Om Oss
Kontakt
Privacy Policy