Parad data i statistik, ofta kallade ordnade par, hänvisar till två variabler i individerna i en population som är sammanlänkade för att bestämma korrelationen mellan dem . För att en datamängd ska betraktas som parad data måste båda dessa datavärden vara kopplade till varandra och inte betraktas separat.
Idén med parad data är i motsats till den vanliga associeringen av ett nummer till varje datapunkt som i andra kvantitativa datamängder genom att varje enskild datapunkt är associerad med två siffror, vilket ger en graf som gör det möjligt för statistiker att observera sambandet mellan dessa variabler i en population.
Denna metod för parad data används när en studie hoppas kunna jämföra två variabler hos individer i befolkningen för att dra någon sorts slutsats om obs. erved korrelation. När du observerar dessa datapunkter är ordningen för parningen viktig eftersom den första siffran är ett mått på en sak medan det andra är ett mått på något helt annat.
Exempel på parad data
- För att se ett exempel på parad data, anta att en lärare räknar antalet läxuppgifter varje elev lämnade in för en viss enhet och sedan parar detta antal med varje elevs procentsats på enhetstestet. Paren är följande:
- En person som slutfört 10 uppdrag tjänade 95 % på sitt prov. (10, 95%)
- En person som slutförde 5 uppdrag tjänade 80% på sina testa. (5, 80%)
- En person som slutfört 9 uppdrag tjänade 85% på sina testa. (9, 85 %)
- En person som slutfört 2 uppdrag tjänade 50 % på sina testa. (2, 50 %)
- En person som slutfört 5 uppdrag tjänade 60 % på sitt testa. (5, 60%)
- En person som slutfört tre uppdrag tjänade 70% på sina testa. (3, 70 %)
I var och en av dessa uppsättningar av parade data kan vi se att antalet uppdrag alltid kommer först i det beställda paret medan procentandelen som tjänats in på testet kommer tvåa, som sett i första instans av (10 , 95 %).
Även om en statistisk analys av dessa data också kan användas för att beräkna det genomsnittliga antalet slutförda hemuppgifter eller det genomsnittliga testresultatet , kan det finnas andra frågor att ställa om uppgifterna. I det här fallet vill läraren veta om det finns något samband mellan antalet inlämnade hemuppgifter och prestationer på provet, och läraren skulle behöva hålla uppgifterna ihopkopplade för att kunna svara på denna fråga.
Analysera parad data
De statistiska teknikerna för korrelation och regression används för att analysera parade data där korrelationskoefficienten kvantifierar hur nära data ligger längs en rät linje och mäter styrkan i det linjära sambandet.
Regression, å andra sidan, används för flera applikationer inklusive att bestämma vilken linje som passar bäst för vår uppsättning av data. Denna linje kan sedan i sin tur användas för att uppskatta eller förutsäga
y
värden för värden på
x
som inte ingick i vår ursprungliga datamängd.
Det finns en speciell typ av graf som är särskilt väl lämpad för parad data som kallas spridningsdiagram. I den här typen av graf representerar en koordinataxel en kvantitet av parad data medan den andra koordinataxeln representerar den andra kvantiteten av parade data.
Ett spridningsdiagram för ovanstående data skulle ha x-axeln ange antalet tilldelningar in medan y-axeln skulle beteckna poängen på enhetstestet.