Vad är R2 linjär regression?

Inom idrott belönas hårt arbete i träning och träning ofta med höga placeringar i tävlingar och spel (på ett proportionellt sätt). Med andra ord, den gamla skolans refräng av ”Ingen smärta, ingen vinst!” präglas av mycket sanning, även om en mer optimistisk inramning av samma idé är: ”Ju hårdare du objektivt arbetar, desto högre är din objektiva framgång.”

Du kan testa den här idén genom att slumpmässigt välja 100 distanslöpare (kanske använda en onlineenkät för att samla in deltagare) och ha de tävlar med varandra över en sträcka på 5 kilometer (3,1 miles). Du kan be dem att rapportera hur många miles per vecka de sprang i genomsnitt under de föregående tre månaderna före detta test.

Om du sedan ritade en graf av 5K hastighet kontra genomsnittliga miles per vecka, skulle du förvänta dig att se en positiv korrelation mellan träning och prestation. Men skulle detta vara en ”perfekt” korrelation? Med andra ord, kan du komma på skäl att förvänta dig datapunkter som skulle avvika från det förutsagda förhållandet mellan träningsvolym och 5K-hastighet?

Välkommen till en värld av linjär regressionsanalys, ett fantastiskt och vanligtvis ganska intressant verktyg som hjälper dig att granska och kvantifiera samband mellan uppenbarligen relaterade variabler. Utöver exemplet ovan kan du föreställa dig otaliga andra (t.ex. nederbörd kontra vegetationsnivå; inkomst kontra tillgång till medicinsk vård i USA) av personligt och medborgerligt intresse.

Läs vidare för mer än du någonsin förväntat dig att veta om frågor relaterade till den nu berömda ”R-kvadratformeln” i statistik.

Om linjära ekvationer

En linjär ekvation heter så eftersom den ger en rät linje när den ritas med x- och y-koordinater. Det kan uttryckas i formen:

y = a + bx

I detta schema är a och b konstanter, x kallas den oberoende variabeln, och y är känd som den beroende variabeln. Ett annat sätt att ange detta förhållande är ”variationen av y med x.”

Vad detta översätts till i den verkliga världen är att x vanligtvis är en variabel som du kan kontrollera eller välja i ett experiment eller analys (som antalet körda mil), och y är en variabel som verkar ha något slags beroende av x (som löphastighet).

Exempel: Rita grafen av ekvationen y = 5x − 7.

I linjära ekvationer är a känt som y-skärningen. Du kan se från grafen att detta är värdet på y där grafen korsar y-axeln. Om den inte gör det, är grafen en vertikal linje, och ekvationen antar formen x = en konstant. En sådan graf fastställer ingenting alls om y som funktion av x och kan inte sättas i formen y = a + bx.

Konstanten b kallas slope av linjen, bekant som ”stiga över körning” i inledande matematikkurser. Den kan vara positiv (representerad av en uppåtlutande linje i förhållande till x- och y-axlarna), negativ (en nedåtlutande linje) eller 0 (en horisontell linje).

Vad är korrelation mellan variabler?

Ovan har du uppmanats att överväga effekten av en varierande beteende (fysisk träning) på ett resultat (en 5K-tid) föreslog att i någon okänd men avsevärd utsträckning bero på det variabla beteendet.

Genom att välja ett ansenligt antal ämnen för din analys (N = 100), strävar du efter att avgöra om en meningsfull och reproducerbar relation existerar; om du bara tittade på tre eller fyra löpare och en eller två råkade vara förkyld på testdagen, skulle resultaten vara mindre hjälpsamma.

Om du debiterade 10 USD för en app som du utvecklat och på något sätt inte hade några start- eller underhållskostnader, vinsten skulle bara vara antalet enheter du sålt gånger tio: y = 10x. Det skulle alltså finnas en ”perfekt” eller oföränderlig korrelation mellan antalet sålda enheter och vinsten. Om du ritade grafen skulle en enda linje uppenbarligen sammanfoga alla punkterna.

Men hur är det med korrelationer som tydligt är i spel men inte är ”perfekta”? Inom vetenskapen är detta i själva verket fallet för det mesta, och linjär regressionsanalys är det verktyg som forskare använder för att bestämma omfattningen eller styrkan av alla samband som bestäms mellan variabler i världen.

Vad är förvirrande i statistik?

Föreställ dig provtagning 1 000 personer från den amerikanska befolkningen som rapporterar att de konsumerar mer än tre koppar kaffe per dag och jämför den kollektiva frekvensen av lungcancer i denna grupp med lungcancerfrekvensen för 1 000 slumpmässigt utvalda amerikaner som rapporterar att de inte dricker kaffe alls. Skulle du bli förvånad över att se att gruppen som dricker kaffe fick betydligt fler lungcancer än avhållarna?

Om du redan tror att antingen studiedesignen var felaktig eller så är det något lömskt och tidigare okänt med kaffe , du är på rätt väg. Det skulle kanske inte vara förvånande att upptäcka att frekvensen av cigarettrökning är mycket högre bland stora kaffedrickare än hos personer som dricker måttliga mängder eller inga alls.

I det här fallet är cigarettrökning känd som en konfunderande variabel. Eftersom det har mätbara effekter på resultatet av intresset utan att vara relaterat till den oberoende variabeln, kastar det brus i studien. Statistiker och forskare måste kunna kontrollera för sådana förvirrande variabler när de utformar studier och analyserar data som dessa producerar.

Om regressionsanalys

Säg att du utför din tränings-mot-5K-tidsanalys, och till stor glädje ser du att det faktiskt finns ett samband mellan arbete och resultat: De som rapporterar mer rigorösa förberedelser tenderar att ha snabbare tider. Men grafen är inte en linje på något sätt; istället är det ett slags moln som ser ut som att en linje skulle kunna köras genom den och fånga den matematiska ”essensen” av punktmolnet, kallad spridningstomt.

För att kunna utföra det som kallas en linjär regressionsanalys, vilket är den process som används för att bestämma en bästa passningslinje i ett spridningsdiagram, man måste kunna göra två antaganden. En är att förhållandet i själva verket är linjärt snarare än, säg, kurvlinjärt, som när y varierar med någon exponentiell potens av x.

Det andra är att förhållandet mellan y och x är sådant att y är kontinuerlig, det vill säga inte en diskret

variabel som 1, 2 eller 3 klasser under en termin.

I ett diagram över 5K hastighet kontra träningsvolym för dina 100 ämnen , finns det ingen sann linje som representerar grafen. Det betyder att det inte heller finns någon riktig lutning eller y-avsnitt. Det finns dock en linje som bäst passar alla plottade punkter och minimerar den totala skillnaden mellan linjen och alla individuella datapunkter. Denna linje ger en uppskattning av y-skärningen och lutningen och ekvationen som beskriver den är av den form som anges ovan: ŷ = a + bx ŷ kallas ”y hat”, och grafen kallas en line of best fit eller, av skäl som snart kommer att bli klara, en linje med minsta kvadrat.

Som du kanske har bestämt, förväntas du inte lösa dessa ekvationer för hand. Din kalkylator kommer inte bara att utföra den här funktionen åt dig, utan du kan också använda valfritt antal onlineverktyg för att göra jobbet åt dig (se resurserna för ett exempel).

Vad är korrelationskoefficienten r?

I ovanstående ekvation är konstanterna a och b uppskattningar härledda från medelvärdena för x och y i provet (såsom genomsnittlig träningsvolym och genomsnittlig 5K tid), skrivna som x̅ och y̅. Härledningen är för omfattande för denna diskussion, men för fullständighetens skull a = y̅ − bx̅ b = ∑ / ∑(x − x̅ ) 2

Konstanten b härleds från storleken på avvikelserna. Intuitivt kanske du redan uppfattar att mindre värden av alla kvantiteter inom parentes i denna ekvation är associerade med en bättre ”passning” mellan data och linjen som skapas för att bestämma ett linjärt samband mellan x och y inom dessa punkter.

Uttrycket för konstanten b ovan kan skrivas: b = r(S y </S

x

),

Vart äry

och S

x

är standardavvikelserna för x- och y-värdena i uppsättningen. Äntligen har du kommit fram till en nyckelstorhet i regressionsanalys: korrelationskoefficienten r, som kan variera mellan −1,0 och 1,0 .

r är det nedersta objektet på utdataskärmen för LinRegTTest på TI-83, TI-83+ och TI-84+ räknare.

Vad är bestämningskoefficienten?

Korrelationskoefficienten r i sig är mycket användbar. Ett värde nära 1,0 indikerar en nästan perfekt positiv korrelation, som i exemplet med din appförsäljning. Ett värde nära −1,0 indikerar en stark negativ korrelation, där flytta den oberoende variabeln (säg, timmar spenderade på fest) ett sätt resulterar i att en annan flyttas (säg, GPA) i motsatt riktning.

En andra viktig storhet i linjär regressionsanalys är determinationskoefficienten. I diskussioner om linjär regression är bestämningskoefficienten alltid kvadraten på korrelationskoefficienten r, så det är helt enkelt (r) 2 = r 2. Observera att detta värde inte kan vara negativt.

Bestämningskoefficienten är inte bara en numerisk transformation från korrelationskoefficienten; den har också bra expl anatoriskt värde i många fall. Det uttrycks vanligtvis som en procentandel snarare än ett decimaltal, för detta är det språk som statistiker föredrar att använda när de förmedlar information till andra vetenskapsmän och särskilt allmänheten.

Varför använda r2-värdet?

För det första är det användbart att veta vad r2 representerar faktiskt. Den definieras bäst som procentandelen av variation i den beroende eller förutspådda variabeln (y) som kan förklaras av variation i den oberoende eller förklarande variabeln (x) med hjälp av den bästa anpassningslinjen som genereras av regressionsanalysen.

Om värdet av r2 i din löpning studie visade sig vara 0,64, man kunde konstatera att 64 procent av variationen i 5K-tider förklarades av skillnader i träningsvolym. (Snabb frågesport: Vilka värden på r kan resultera i en bestämningskoefficient på 0,64?)

På samma sätt, värdet 1 – r2, uttryckt i procent, representerar procentandelen av variation i y som inte förklaras av variation i

x. Detta kan tyckas vara ett trivialt sant resultat, men i vissa fall kan du vara mer explicit intresserad av skillnader snarare än likheter.

I din löpanalys, om du inte delade in dina försökspersoner i kategorier baserat på faktorer som ålder, kön och allmän hälsa, kan du förvänta dig att få ett antal förvirrande variabler i din analys, vilket driver ner värdet på r2 och avslöjar gränserna för din analyss undersökningsförmåga.

Linjär regressionskalkylator

I resurserna hittar du ett exempel på ett verktyg som låter dig mata in så många x- och y-värden du vill från en datamängd och utföra en linjär regression , genererar r och r2 i processen. Att leka med allt större datamängder och mixtra med variationen genom ”känsla” är ett bra sätt att bekanta dig med linjär regression och dess grafiska implikationer.

Lämna ett svar

Relaterade Inlägg

  • Högskoleprovets utmaningar – matematik

  • Hur man beräknar korrelationskoefficienter med en ekvation

  • Hur man beräknar volymer av femkantiga prismor

  • Hur man konverterar omkrets till diameter på en miniräknare

  • Hur man testar Chi-Square

  • Vilka är några egenskaper hos protein?