Lineær versus logistisk regression
I statistisk analyse er det vigtigt at identificere sammenhængen mellem de pågældende variabler og undersøgelsen. Nogle gange kan det være det eneste formål med selve analysen. Et stærkt værktøj anvendt til at etablere eksistensen af et forhold og identificere forholdet er regressionsanalyse.
Den enkleste form for regressionsanalyse er den lineære regression, hvor forholdet mellem variablerne er et lineært forhold. I statistiske termer fremhæver det forholdet mellem den forklarende variabel og responsvariablen. For eksempel kan vi ved hjælp af regression fastslå forholdet mellem råvareprisen og forbruget baseret på data indsamlet fra en tilfældig prøve. Regressionsanalyse vil producere en regressionsfunktion af datasættet, som er en matematisk model, der bedst passer til de tilgængelige data. Dette kan let repræsenteres af et spredningsdiagram. Grafisk regression svarer til at finde den bedst egnede kurve for det givne datasæt. Kurvens funktion er regressionsfunktionen. Ved hjælp af den matematiske model kan brugen af en vare forudsiges til en given pris.
Derfor bruges regressionsanalysen i vid udstrækning til forudsigelse og prognoser. Det bruges også til at etablere forholdet i eksperimentelle data inden for fysik, kemi og i mange naturvidenskabelige og tekniske discipliner. Hvis forholdet eller regressionsfunktionen er en lineær funktion, er processen kendt som en lineær regression. I spredningsdiagrammet kan det repræsenteres som en lige linje. Hvis funktionen ikke er en lineær kombination af parametrene, er regressionen ikke-lineær.
Logistisk regression kan sammenlignes med multivariat regression, og det skaber en model til at forklare virkningen af flere forudsigere på en responsvariabel. I logistisk regression skal slutresultatvariablen imidlertid være kategorisk (normalt delt; dvs. et par opnåelige resultater, som død eller overlevelse, selvom specielle teknikker gør det muligt at modellere mere kategoriserede oplysninger). En kontinuerlig resultatvariabel kan omdannes til en kategorisk variabel, der skal bruges til logistisk regression; kollaps af kontinuerlige variabler på denne måde frarådes imidlertid for det meste, fordi det reducerer nøjagtigheden.
I modsætning til i den lineære regression behøver forudsigelsesvariablerne i logistisk regression ikke at blive tvunget til at være lineært forbundet, almindeligt distribueret eller have samme varians inden i hver klynge. Som et resultat er forholdet mellem forudsigelses- og udfaldsvariabler sandsynligvis ikke en lineær funktion.
Hvad er forskellen mellem logistisk og lineær regression?
• Ved lineær regression antages en lineær sammenhæng mellem den forklarende variabel og responsvariablen, og parametre, der opfylder modellen, findes ved analyse for at give det nøjagtige forhold.
• Lineær regression udføres for kvantitative variabler, og den resulterende funktion er kvantitativ.
• I den logistiske regression kan de anvendte data være enten kategoriske eller kvantitative, men resultatet er altid kategorisk.