När en uppsättning data innehåller två variabler som kan relatera, såsom individers höjder och vikter, hittar regressionsanalys en matematisk funktion som bäst approximerar sambandet. Summan av residualer är ett mått på hur bra ett jobb funktionen gör.
Rester
I regressionsanalys, vi väljer att en variabel ska vara den ”förklarande variabeln”, som vi kommer att kalla x, och den andra att vara ”svarsvariabeln” som vi kommer att kalla y. Regressionsanalys skapar funktionen y = f(x) som bäst förutsäger responsvariabeln från dess associerade förklaringsvariabel. Om xär en av de förklarande variablerna, och ydess svarsvariabel, då är residualen felet eller skillnaden mellan det faktiska värdet av yoch det förutsagda värdet av y . Med andra ord, residual = y- f(x).
Exempel
En uppsättning data innehåller höjderna i centimeter och vikterna i kilogram för 5 personer: [(152,54), (165,65), (175,100), (170,80), (140, 45)]. En kvadratisk anpassning av vikt, w, för höjd, h, är w = f(h) = 1160 -15,5_h + 0,054_h^2. Resterna är (i kg): [2.38, 7.65, 1.25, 5.60, 3.40]. Summan av rester är 15,5 kg.
Linjär regression
Den enklaste typen av regression är linjär regression, där den matematiska funktionen är en rät linje av formen y = m*x + b. I det här fallet är summan av residualer 0 per definition.