Vad är stegvis regression?
Regressionsanalys är ett allmänt använt statistiskt tillvägagångssätt som syftar till att identifiera samband mellan variabler. Tanken är att samla relevant information för att fatta bättre informerade beslut och är en vanlig praxis i investeringsvärlden. Stegvis regression är stegvis steg iterativ konstruktion av en regressionsmodell som involverar automatiskt val av oberoende variabler. Tillgängligheten för statistiska programvarupaket gör stegvis regression möjlig, även i modeller med hundratals variabler.
Typer av stegvis regression
Det underliggande målet med stegvis regression är genom en serie tester (F-test, t-test) att hitta en uppsättning oberoende variabler som signifikant påverkar den beroende variabeln. Detta görs med datorer genom iteration, som är processen att komma till resultat eller beslut genom att gå igenom upprepade omgångar eller analyscykler. Att genomföra tester automatiskt med hjälp av statistiska programvarupaket har fördelen att spara tid för individen.
Key Takeaways
- Regressionsanalys är ett statistiskt tillvägagångssätt som syftar till att förstå och mäta samband mellan oberoende och beroende variabler. Stegvis regression är en metod som undersöker den statistiska betydelsen av varje oberoende variabel inom modellen. Framvägsvalsmetoden lägger till en variabel och testar sedan för statistisk betydelse.Metoden för bakåt eliminering börjar med en modell laddad med många variabler och tar sedan bort en variabel för att testa dess betydelse i förhållande till övergripande resultat. Förstegsregression har många kritiker, eftersom det är en metod som passar data i en modell för att uppnå ett önskat resultat.
Stegvis regression kan uppnås antingen genom att testa en oberoende variabel åt gången och inkludera den i regressionsmodellen om den är statistiskt signifikant eller genom att inkludera alla potentiella oberoende variabler i modellen och eliminera de som inte är statistiskt signifikanta. Vissa använder en kombination av båda metoderna och därför finns det tre metoder för stegvis regression:
- Val av framåt börjar med inga variabler i modellen, testar varje variabel när den läggs till i modellen och håller sedan de som bedöms vara mest statistiskt signifikanta - upprepar processen tills resultaten är optimala. Bakåt eliminering börjar med en uppsättning oberoende variabler, ta bort en åt gången, testa sedan för att se om den borttagna variabeln är statistiskt signifikant. Riktning elimination är en kombination av de två första metoderna som testar vilka variabler som ska inkluderas eller uteslutas.
Ett exempel på en stegvis regression med hjälp av bakåt eliminationsmetoden skulle vara ett försök att förstå energianvändning på en fabrik med variabler som utrustningens körtid, utrustningens ålder, personalstorlek, temperaturer utanför och årstid. Modellen inkluderar alla variabler - sedan tas alla bort, en åt gången, för att bestämma vilka som är minst statistiskt signifikanta. I slutändan kan modellen visa att tiden på året och temperaturerna är mest betydande, vilket möjligen antyder att energiförbrukningen på fabriken är när luftkonditioneringsanvändningen är som högst.
Begränsningar av stegvis regression
Regressionsanalys, både linjär och multivariat, används ofta i investeringsvärlden idag. Tanken är ofta att hitta mönster som funnits i det förflutna som också kan återkomma i framtiden. En enkel linjär regression, till exempel, kan titta på pris-till-vinst-förhållanden och lageravkastning under många år för att avgöra om aktier med låga P / E-förhållanden (oberoende variabel) erbjuder högre avkastning (beroende variabel). Problemet med detta tillvägagångssätt är att marknadsförhållandena ofta förändras och förhållanden som hölls i det förflutna inte nödvändigtvis gäller i nutid eller framtid.
Under tiden har den stegvisa regressionsprocessen många kritiker och det finns till och med samtal om att sluta använda metoden helt. Statistiker noterar flera nackdelar med tillvägagångssättet, inklusive felaktiga resultat, en inneboende förspänning i själva processen och behovet av betydande datorkraft för att utveckla komplexa regressionsmodeller genom iteration.
