Vad är en scatterplot och hur används den i statistik?

Ett av målen med statistik är att organisera och visa data. Många gånger är ett sätt att göra detta att använda en graf, ett diagram eller en tabell. När man arbetar med parad data, en användbar typ av graf är ett spridningsdiagram. Denna typ av graf låter oss enkelt och effektivt utforska vår data genom att undersöka en spridning av punkter i planet.

Parade data

Det är värt att markera att en punktdiagram är en typ av graf som används för parad data. Detta är en typ av datamängd där var och en av våra datapunkter har två nummer kopplade till sig. Vanliga exempel på sådana parningar inkluderar:

En mätning före och efter en behandling. Detta kan ta formen av en elevs prestation på ett förtest och sedan ett eftertest.

Ett experiment med matchade par l design. Här är en individ i kontrollgruppen och en annan liknande individ i behandlingsgruppen.

Två mätningar från samma enskild. Till exempel kan vi registrera vikten och längden på 100 personer.

2D-grafer

Den tomma duken som vi kommer att börja med för vår scatterplot är det kartesiska koordinatsystemet. Detta kallas också det rektangulära koordinatsystemet på grund av att varje punkt kan lokaliseras genom att rita en viss rektangel. Ett rektangulärt koordinatsystem kan ställas in genom att:

Börjar med en horisontell tallinje. Detta kallas x-axeln.

Lägg till en vertikal tallinje. Skär x–axeln på ett sådant sätt att nollpunkt från båda linjerna skär varandra. Denna andra tallinje kallas y-axeln.

Punkten där nollorna på vår tallinje skär kallas origo.

Nu vi kan plotta våra datapunkter. Den första siffran i vårt par är x-koordinaten . Det är det horisontella avståndet bort från y-axeln, och därav origo också. Vi flyttar till höger för positiva värden på x och till vänster om ursprunget för negativa värden på x .

Den andra siffran i vårt par är y-koordinat. Det är det vertikala avståndet från x-axeln. Börjar vid den ursprungliga punkten på x-axeln, flytta upp för positiva värden på y och ner för negativa värden på y.

Platsen på vår graf markeras sedan med en punkt. Vi upprepar denna process om och om igen för varje punkt i vår datamängd. Resultatet är en spridning av punkter, vilket ger spridningsdiagrammet dess namn.

Förklaring och svar

En viktig instruktion som återstår är att vara försiktig med vilken variabel som är på vilken axel. Om våra parade data består av en förklarings- och svarsparning, så indikeras den förklarande variabeln på x-axeln. Om båda variablerna anses vara förklarande kan vi välja vilken som ska plottas på x-axeln och vilken på y-axel.

Funktioner i en scatterplot

Det finns flera viktiga funktioner i en scatterplot . Genom att identifiera dessa egenskaper kan vi avslöja mer information om vår datamängd. Dessa funktioner inkluderar:

Den övergripande trenden bland våra variabler. När vi läser från vänster till höger, vad är den stora bilden? Ett uppåtgående mönster, nedåtgående eller cykliskt?

Några avvikelser från den övergripande trenden. Är dessa extremvärden från resten av vår data, eller är de inflytelserika punkter?

Formen på vilken trend som helst. Är detta linjärt, exponentiellt, logaritmiskt eller något annat?

Styrkan i varje trend. Hur nära överensstämmer uppgifterna med det övergripande mönstret som vi identifierade?