Hur man beräknar felmarginaler

Fel. Själva ordet resonerar med ånger och ånger, åtminstone om du råkar vara en basebollspelare, en examenstagare eller en frågesportsdeltagare. För statistiker är fel helt enkelt en sak till att hålla reda på som en del av arbetsbeskrivningen – såvida det inte är statistikerns egna fel som är aktuella.

Termen felmarginal är vanligt i vardagligt språk , inklusive många mediaartiklar om vetenskapliga ämnen eller opinionsundersökningar. Det är ett sätt att rapportera tillförlitligheten av ett värde (som andelen vuxna som favoriserar en viss politisk kandidat). Den baseras på ett antal faktorer, inklusive storleken på urvalet och det antagna värdet av populationsmedelvärdet för variabeln av intresse.

För att förstå felmarginalen måste du först ha praktisk kunskap om grundläggande statistik, särskilt begreppet normalfördelning. När du läser, var särskilt uppmärksam på skillnaden mellan medelvärdet för ett urval och medelvärdet för ett stort antal av dessa urvalsmedelvärden.

Befolkningsstatistik: Grunderna

Om du har ett urval av data, som vikten av 500 slumpmässigt utvalda 15-åriga pojkar i Sverige, kan du beräkna medelvärdet, eller medelvärdet, genom att dividera summan av de individuella vikterna med antalet datapunkter (500). Standardavvikelsen för det här urvalet är ett mått på spridningen av dessa data om detta medelvärde, som visar hur brett värden (som vikter) tenderar att klustras.

Vad har med största sannolikhet en större standardavvikelse: Medelvikten i pounds för de ovannämnda svenska pojkarna, eller de totala skolåren de har slutfört vid 15 års ålder?

Statistikens Central Limit Theorem i statistiken anger att i varje urval som tas från en population med ett värde för en given variabel som är normalfördelad kring ett medelvärde, då medelvärdet av medelvärdet av prover taget från den populationen kommer att närma sig populationsmedelvärdet när antalet urvalsmedelmedel växer mot oändligheten.

I urvalsstatistik representeras medelvärdet och standardavvikelsen av x̄ och s, som är sanna statistik, snarare än μ och σ, som faktiskt är parametrar och kan inte kännas till med 100 procents säkerhet. Följande exempel illustrerar skillnaden som spelar in vid beräkning av felmarginaler.

Om du upprepade gånger provade höjderna på 100 slumpmässigt utvalda kvinnor i ett stort land där medellängden för en vuxen kvinna är 64,25 tum, med en standardavvikelse på 2 tum, kan du samla in successiva x̄-värden på 63,7, 64,9, 64,5 och så vidare, med standardavvikelser på 1,7, 2,3, 2,2 tum och liknande. I varje fall, μ och σ förbli oförändrad på 64,25 respektive 2 tum.

Vad är ett konfidensintervall?

Om om du valde en enskild person slumpmässigt och gav henne ett allmänt vetenskapsquiz med 20 frågor, skulle det vara dumt att använda resultatet som genomsnittet för en större population av testdeltagare. Men om populationens medelpoäng för det här frågesporten råkar vara känd, kan statistikens kraft användas för att avgöra vilken förtroende du kan ha för att en rad värden (i det här fallet poäng) kommer att innehålla den enskilde personens poäng.

Ett konfidensintervall är ett värdeintervall som motsvarar den förväntade procentandelen av sådana intervall som kommer att innehålla värdet om ett stort antal sådana intervall skapas slumpmässigt, med hjälp av samma urvalsstorlekar från samma större population. Det finns alltid

någon osäker på om ett visst konfidensintervall mindre än 100 procent faktiskt innehåller det sanna värdet av parametern; för det mesta används ett konfidensintervall på 95 procent.

Exempel: Antag att din frågesporttagare fick 22/25 (88 procent) och att befolkningens medelpoäng är 53 procent med en standardavvikelse på ± 10 procent. Finns det något sätt att veta att denna poäng relaterar till medelvärdet i percentiltermer och vad felmarginalen är?

Vad är kritiska värden?

Kritiska värden är baserade på normalfördelade data, vilket är den sorten som har diskuterats här hittills. Detta är data som är symmetriskt fördelade kring ett centralt medelvärde, såsom längd och vikt tenderar att vara. Andra populationsvariabler, såsom ålder, visar inte normalfördelningar.

Kritiska värden används för att bestämma konfidensintervall. Dessa är baserade på principen att populationsmedelvärden faktiskt är mycket, mycket tillförlitliga uppskattningar som är sammansatta från ett praktiskt taget obegränsat antal prover. De betecknas med z , och du behöver ett diagram som det i resurserna för att arbeta med dem eftersom ditt valda konfidensintervall avgör deras värde.

En anledning till att du behöver z-värden (eller z-scores) är att bestämma felmarginalen för ett urvalsmedelvärde eller för ett populationsmedelvärde. Dessa beräkningar hanteras på något olika sätt.

Standardfel vs. standardavvikelse

Standardavvikelsen för ett prov s skiljer sig för varje prov; standardfelet för medelvärdet av ett antal stickprov beror på populationens standardavvikelse σ och ges av uttrycket:

text{Standardfel} = dfrac{sigma}{sqrt{n}} newline

Formel för felmarginal

För att fortsätta diskussionen ovan om z-poäng, härleds de från det valda konfidensintervallet. För att använda den tillhörande tabellen, konvertera konfidensintervallsprocenten till en decimal, subtrahera denna kvantitet från 1,0 och dividera resultatet med två (eftersom konfidensintervallet är symmetriskt om medelvärdet).

Mängden (1 − CI), där CI är konfidensintervallet uttryckt i decimalnotation, kallas nivån av signifikans och betecknas med α. Till exempel, när KI = 95 % = 0,95, α = 1,0 − 0,05 = 0,05.

När du har det här värdet hittar du var det visas i z-poängtabellen och bestämmer z- poäng genom att notera värdena för den relevanta raden och kolumnen. Till exempel när α = 0,05, du hänvisar till värdet 0,05/2 = 0,025 i tabellen, kallat Z, se att den är associerad med en z-poäng på −1,9 (radvärdet) minus ytterligare 0,06 (kolumnvärdet) för att ge ett z -poäng på −1,96.

Felmarginalberäkningar

Nu är du redo att utföra vissa felmarginalberäkningar. Som nämnts görs dessa olika beroende på exakt vad du hittar felmarginalen för.

Formeln för felmarginalen för ett urvalsmedelvärde är:

E = Z_{(α/2)} × s och att för felmarginalen för en population är medelvärdet:

E = Z_{(α/2)} × frac{σ}{sqrt{n}} = Z_{(α/2)} × text{standardfel})

Exempel: Antag att du vet att antalet onlineprogram personer i din stad binge-watch per år normalt fördelas med en populationens standardavvikelse σ på 3,2 visar. Ett slumpmässigt urval av 29 stadsbor togs och stickprovets medelvärde är 14,6 föreställningar/år. Med ett 90 % konfidensintervall, vad är felmarginalen?

Du ser att du kommer att använda den andra av ovanstående två ekvationer för att lösa detta problem, eftersom σ är given. Beräkna först standardfelet σ/√n: frac{3,6}{sqrt{29}}= 0,67

Nu använder du värdet av Z (α/2) för α = 0,10. När du hittar värdet 0,050 i tabellen ser du att detta motsvarar värdet z mellan −1,64 och −1,65, så du kan använda −1,645. För felmarginalen E, detta ger: E = (−1,645)(0,67) = −1,10

Notera att du kunde ha börjat på det positiva z-poängsidan av tabellen och hittade värdet som motsvarar 0,90 istället för 0,10, eftersom detta representerar motsvarande kritiska punkt på motsatt (höger) sida av grafen. Detta skulle ha gett E = 1,10, vilket är vettigt eftersom felet är detsamma på varje sida av medelvärdet.

Sammanfattningsvis, alltså antalet av visningar per år av urvalet av 29 av dina grannar är 14,6 ± 1,10 visningar per år.