Vad är en Chi-Square-statistik?
En chi-kvadrat ( χ 2) statistik är ett test som mäter hur förväntningarna jämförs med faktiska observerade data (eller modellresultat). Data som används för att beräkna en chi-kvadratstatistik måste vara slumpmässiga, råa, ömsesidigt exklusiva, hämtade från oberoende variabler och dras från ett tillräckligt stort prov. Till exempel uppfyller resultaten av att kasta ett mynt 100 gånger dessa kriterier.
Chi-kvadratiska tester används ofta vid hypotest.
Formeln för Chi-Square är
χc2 = ∑ (Oi − Ei) 2Elunda var: c = frihetsgrader O = observerat värde E = förväntat värde (er) börja {inriktat} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \ & \ textbf {var:} \ & c = \ text {grader av frihet} \ & O = \ text {observerat värde (r)} \ & E = \ text {förväntat värde (er) } \ \ end {inriktad} χc2 = ∑Ei (Oi −Ei) 2 där: c = frihetsgrader O = observerat värde E = förväntat värde
Vad säger en Chi-Square-statistik?
Det finns två huvudtyper av chi-kvadratiska test: testet av oberoende, som ställer en fråga om förhållande, som "Finns det ett samband mellan kön och SAT-poäng?"; och testet om godhet som passar, som frågar något som "Om ett mynt kastas 100 gånger, kommer det att komma upp 50 gånger och svansar 50 gånger?"
För dessa tester används grader av frihet för att bestämma om en viss nollhypotes kan avvisas baserat på det totala antalet variabler och prover inom experimentet.
Till exempel, när man överväger studenter och kursval, är ett exempel på 30 eller 40 studenter sannolikt inte tillräckligt stort för att generera betydande data. Att få samma eller liknande resultat från en studie med en provstorlek på 400 eller 500 studenter är mer giltigt.
I ett annat exempel kan du överväga att kasta ett mynt 100 gånger. Det förväntade resultatet av att kasta ett rättvis mynt 100 gånger är att huvuden kommer upp 50 gånger och svansarna kommer upp 50 gånger. Det faktiska resultatet kan vara att huvuden kommer upp 45 gånger och svansarna kommer upp 55 gånger. Chi-square-statistiken visar eventuella avvikelser mellan de förväntade resultaten och de faktiska resultaten.
Exempel på ett Chi-kvadrat-test
Föreställ dig att en slumpmässig undersökning gjordes över 2 000 olika väljare, både manliga och kvinnliga. De personer som svarade klassificerades efter sitt kön och om de var republikanska, demokrat eller oberoende. Föreställ dig ett rutnät med kolumnerna märkta republikansk, demokrat och oberoende och två rader märkta man och kvinna. Antag att uppgifterna från de 2 000 svarande är som följer:
Det första steget för att beräkna chi-kvadratstatistiken är att hitta de förväntade frekvenserna. Dessa beräknas för varje "cell" i rutnätet. Eftersom det finns två kategorier av kön och tre kategorier av politisk syn, finns det sex förväntade frekvenser. Formeln för den förväntade frekvensen är:
E (r, c) = n (r) × c (r) nwhere: r = rad i frågac = kolumn i fråga = motsvarande total \ börja {inriktad} & E (r, c) = \ frac {n (r) gånger c (r)} {n} \ & \ textbf {var:} \ & r = \ text {rad i fråga} \ & c = \ text {kolumn i fråga} \ & n = \ text {motsvarande total} \ \ end {inriktad} E (r, c) = nn (r) × c (r) där: r = rad i frågac = kolumn i fråga = motsvarande total
I detta exempel är de förväntade frekvenserna:
- E (1, 1) = (900 x 800) / 2000 = 360E (1, 2) = (900 x 800) / 2000 = 360E (1, 3) = (200 x 800) / 2000 = 80E (2, 1) = (900 x 1 200) / 2 000 = 540E (2, 2) = (900 x 1 200) / 2 000 = 540E (2, 3) = (200 x 1 200) / 2 000 = 120
Därefter används dessa värden för att beräkna chi-kvadratstatistiken med hjälp av följande formel:
Chi-kvadrat = ∑2E (r, c) där: O (r, c) = observerade data för den givna raden och kolumnen \ börja {inriktad} & \ text {Chi-kvadrat} = \ sum \ frac {^ 2} {E (r, c)} \ & \ textbf {var:} \ & O (r, c) = \ text {observerade data för den givna raden och kolumnen} \ \ end {inriktad} Chi-squared = ∑E (r, c) 2 där: O (r, c) = observerade data för den givna raden och kolumnen
I detta exempel är uttrycket för varje observerat värde:
- O (1, 1) = (400 - 360) 2/360 = 4, 44O (1, 2) = (300 - 360) 2/360 = 10O (1, 3) = (100 - 80) 2/80 = 5O (2, 1) = (500 - 540) 2/540 = 2, 96 (2, 2) = (600 - 540) 2/540 = 6, 67O (2, 3) = (100 - 120) 2/120 = 3, 33
Den chi-kvadratiska statistiken är sedan lika med summan av dessa värden, eller 32, 41. Vi kan sedan titta på en chi-kvadratisk statistiktabell för att se, med tanke på graden av frihet i vår uppsättning, om resultatet är statistiskt signifikant eller inte.
