Vad är Homoskedastic?
Homoskedastic (även stavad "homoscedastic") hänvisar till ett tillstånd där variansen för rest- eller feltermen i en regressionsmodell är konstant. Det vill säga att feltermen inte varierar mycket eftersom värdet på prediktorvariabeln ändras. Emellertid kan bristen på homoskedasticitet antyda att regressionsmodellen kan behöva inkludera ytterligare prediktorvariabler för att förklara den beroende variabelns prestanda.
Key Takeaways
- Homoskedasticitet uppstår när variationen i feltermen i en regressionsmodell är konstant. Om variansen hos feltermen är homoskedastisk var modellen väl definierad. Om det är för mycket varians kan modellen kanske inte definieras väl. Lägga till ytterligare prediktorvariabler kan hjälpa till att förklara prestandan för den beroende variabeln. Omvänt uppstår heteroskedasticitet när variansen hos feltermen inte är konstant.
Hur Homoskedastic fungerar
Homoskedasticitet är ett antagande om linjär regressionsmodellering. Om variansen mellan felen runt regressionslinjen varierar mycket kan regressionsmodellen vara dåligt definierad. Motsatsen av homoskedasticitet är heteroskedasticitet precis som motsatsen till "homogen" är "heterogen". Heteroskedasticitet (även stavad ”heteroscedasticitet”) hänvisar till ett tillstånd där variansen hos feltermen i en regressionsekvation inte är konstant.
När man överväger att variansen är den uppmätta skillnaden mellan det förutsagda utfallet och det verkliga utfallet av en given situation kan bestämning av homoskedasticitet hjälpa till att bestämma vilka faktorer som måste justeras för noggrannhet.
Särskilda överväganden
En enkel regressionsmodell eller ekvation består av fyra termer. På vänster sida är den beroende variabeln. Det representerar fenomenet modellen försöker "förklara." På höger sida finns en konstant, en prediktorvariabel och en rest- eller feltermin. Feltermen visar mängden variation i den beroende variabeln som inte förklaras av prediktorns variabel.
Exempel på Homoskedastic
Anta till exempel att du ville förklara betyg för studenttest med den tid som varje student tillbringade studier. I det här fallet skulle testresultaten vara den beroende variabeln och tiden som studerades skulle vara prediktorvariabeln.
Feltermen visar mängden varians i testresultaten som inte förklarades av studietiden. Om den variansen är enhetlig, eller homoskedastisk, kan det föreslå att modellen kan vara en tillräcklig förklaring för testprestanda - förklara den i termer av tidsbruk.
Men variansen kan vara heteroskedastisk. Ett diagram över felsiktdata kan visa att en stor mängd studietid motsvarade mycket nära testresultat med höga testresultat men att testresultat med låg studietid varierade mycket och till och med inkluderade några mycket höga poäng. Så variationen i poäng skulle inte förklaras väl helt enkelt av en prediktorvariabel - hur mycket tid som studeras. I det här fallet är antagligen någon annan faktor på jobbet, och modellen kan behöva förbättras för att identifiera den eller dem. Ytterligare undersökningar kan avslöja att vissa studenter hade sett svaret på testet i förväg eller att de tidigare hade tagit ett liknande test, och därför inte behövde studera för just detta test.
För att förbättra regressionsmodellen skulle forskaren därför lägga till en annan förklarande variabel som indikerar om en student hade sett svaren före testet. Regressionsmodellen skulle då ha två förklarande variabler - tidsstudier och om eleven hade förkunskaper om svaren. Med dessa två variabler skulle mer av variansen hos testresultaten förklaras och variansen hos feltermen kan då vara homoskedastisk, vilket antyder att modellen var väl definierad.
