Befolkning vs standardafvigelse
I statistikker anvendes flere indekser til at beskrive et datasæt svarende til dets centrale tendens, spredning og skævhed. Standardafvigelse er et af de mest almindelige målinger af spredning af data fra midten af datasættet.
På grund af praktiske vanskeligheder er det ikke muligt at bruge data fra hele befolkningen, når en hypotese testes. Derfor anvender vi dataværdier fra prøver for at drage slutninger om populationen. I en sådan situation kaldes disse estimatorer, da de estimerer populationsparameterværdierne.
Det er ekstremt vigtigt at bruge upartiske estimatorer til slutning. En estimator siges at være upartisk, hvis den forventede værdi af denne estimator er lig med populationsparameteren. For eksempel bruger vi middelprøven som en upartisk estimator for populationsgennemsnittet. (Matematisk kan det vises, at den forventede værdi af stikprøven er lig med populationens gennemsnit). I tilfælde af estimering af populationsstandardafvigelsen er prøvestandardafvigelsen også en upartisk estimator.
Hvad er populationsstandardafvigelse?
Når data fra hele befolkningen kan tages i betragtning (for eksempel i tilfælde af folketælling) er det muligt at beregne befolkningsstandardafvigelsen. For at beregne standardafvigelsen for befolkningen beregnes først afvigelserne af dataværdier fra populationsgennemsnittet. Rødets middelkvadrat (kvadratisk gennemsnit) af afvigelser kaldes populationsstandardafvigelse.
I en klasse på 10 studerende kan data om de studerende let indsamles. Hvis en hypotese testes på denne population af studerende, er der ikke behov for at bruge prøveværdier. For eksempel måles vægten af de 10 studerende (i kg) til at være 70, 62, 65, 72, 80, 70, 63, 72, 77 og 79. Derefter er gennemsnitsvægten for de ti personer (i kg) (70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79) / 10, hvilket er 71 (i kg). Dette er befolkningens gennemsnit.
For at beregne populationsstandardafvigelsen beregner vi nu afvigelser fra gennemsnittet. De respektive afvigelser fra gennemsnittet er (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 og (79 - 71) = 8. Summen af afvigelses kvadrater er (-1) 2 + (-9) 2 + (-6) 2 + 1 2 + 9 2 + (-1) 2 + (-8) 2 + 1 2 + 6 2 + 8 2 = 366. Befolkningsstandardafvigelse er √ (366/10) = 6,05 (i kg). 71 er den nøjagtige gennemsnitsvægt for klassens elever og 6.05 er den nøjagtige standardafvigelse for vægt fra 71.
Hvad er prøve standardafvigelse?
Når data fra en prøve (af størrelse n) bruges til at estimere parametre for populationen, beregnes prøveens standardafvigelse. Først beregnes afvigelserne af dataværdier fra stikprøven. Eftersom gennemsnittet af prøven bruges i stedet for populationsgennemsnittet (hvilket er ukendt), er det ikke hensigtsmæssigt at tage det kvadratiske gennemsnit. For at kompensere for brugen af prøve middelværdien divideres summen af kvadrater af afvigelser med (n-1) i stedet for n. Prøvestandardafvigelsen er kvadratroden af dette. I matematiske symboler er S = √ {∑ (x i -ẍ) 2 / (n-1)}, hvor S er standardstandardafvigelsen, ẍ er prøve middelværdien og x jeg er datapunkterne.
Antag nu, at befolkningen i det foregående eksempel er eleverne på hele skolen. Derefter vil klassen kun være en prøve. Hvis denne prøve bruges i estimeringen, vil prøveens standardafvigelse være √ (366/9) = 6,38 (i kg), da 366 blev divideret med 9 i stedet for 10 (stikprøvestørrelsen). Faktum at observere er, at dette ikke garanteres at være den nøjagtige befolkningsstandardafvigelsesværdi. Det er kun et skøn for det.
Hvad er forskellen mellem populationsstandardafvigelse og prøve standardafvigelse? • Befolkningsstandardafvigelse er den nøjagtige parameterværdi, der bruges til at måle spredningen fra midten, hvorimod prøvestandardafvigelsen er en upartisk estimator for den. • Befolkningsstandardafvigelse beregnes, når alle data vedrørende hver enkelt af befolkningen er kendt. Ellers beregnes prøveens standardafvigelse. • Befolkningsstandardafvigelse er givet ved σ = √ {∑ (xi-µ) 2 / n} hvor µ er populationsgennemsnittet og n er populationsstørrelsen, men prøveudfaldsstandardafvigelsen er givet med S = √ {∑ (xi-ẍ) 2 / (n-1)} hvor ẍ er prøve gennemsnit og n er prøve størrelse. |