Vad är Gaussisk distribution?

I statistiken används den Gaussiska, eller normala, fördelningen för att karakterisera komplexa system med många faktorer. Som beskrivs i Stephen Stiglers The History of Statistics, uppfann Abraham De Moivre distributionen som bär Karl Fredrick Gauss namn. Gauss bidrag låg i hans tillämpning av fördelningen på minsta kvadraters tillvägagångssätt för att minimera fel vid anpassning av data med en linje med bästa passform. Han gjorde det därmed till statistikens viktigaste felfördelning.

Motivation

Vad är fördelningen av ett urval av data? Vad händer om du inte känner till datas underliggande distribution? Finns det något sätt att testa hypoteser om data utan att känna till den underliggande fördelningen? Tack vare Central Limit Theorem, är svaret ja.

Statement of the Theorem

Den anger att ett urvalsmedelvärde från en oändlig population är ungefär normalt, eller Gaussiskt, med medelvärdet samma som den underliggande populationen, och variansen lika med populationsvariansen dividerat med urvalet storlek. Uppskattningen förbättras när urvalsstorleken blir stor.

Approximationssatsen är ibland felaktig som en slutsats om konvergens till en normalfördelning. Eftersom den approximativa normalfördelningen ändras när urvalsstorleken ökar, är ett sådant uttalande missvisande.

teorem utvecklades av Pierre Simon Laplace.

Why It’s Everywhere

Normalfördelningar är allestädes närvarande. Anledningen kommer från Central Limit Theorem. När ett värde mäts är det ofta summaeffekten av många oberoende variabler. Därför har värdet som mäts i sig självt en stickprovsmedelkvalitet. Till exempel kan en fördelning av idrottares prestationer ha en klockform, som ett resultat av skillnader i kost, träning, genetik, coaching och psykologi. Även mäns längder har en normalfördelning, som är en funktion av många biologiska faktorer.

Gaussian Copulas

Det som kallas en ”kopulafunktion” med en gaussisk fördelning var i nyheterna 2009 p.g.a. av dess användning för att bedöma risken med att investera i obligationer med säkerhet. Missbruket av funktionen var avgörande i finanskrisen 2008-2009. Även om det fanns många orsaker till krisen, borde Gaussiska distributioner i efterhand sannolikt inte ha använts. En funktion med en tjockare svans skulle ha tilldelats större sannolikhet för negativa händelser.

Herledning

Central Limit Theorem kan bevisas på många rader genom att analysera den momentgenererande funktionen ( mgf) av (provmedelvärde – populationsmedelvärde)/?(populationsvarians / urvalsstorlek) som en funktion av mgf för den underliggande populationen. Approximationsdelen av satsen introduceras genom att expandera den underliggande populationens mgf som en potensserie, och sedan visa att de flesta termer är obetydliga när urvalsstorleken blir stor.

Det kan bevisas på mycket färre rader genom att använda en Taylor-expansion på den karakteristiska ekvationen för samma funktion och göra urvalsstorleken stor.

Beräkningsvänlighet

Vissa statistiska modeller förutsätter att felen är Gaussiska. Detta möjliggör fördelningar av funktioner för normala variabler, som chi-kvadrat- och F-fördelningen, att användas i hypotestestning. Specifikt i F-testet är F-statistiken sammansatt av ett förhållande mellan chi-kvadratfördelningar, som i sig är funktioner av en normal variansparameter. Förhållandet mellan de två gör att variansen upphävs, vilket möjliggör hypotestestning utan kunskap om varianserna förutom deras normalitet och beständighet.