Gennemsnit vs Median vs Mode
Middel, median og tilstand er de primære mål for central tendens, der anvendes i beskrivende statistik. De er helt forskellige fra hinanden, og de tilfælde, hvor de bruges til at opsummere dataene, er også forskellige.
Betyde
Det aritmetiske gennemsnit er summen af dataværdierne divideret med antallet af dataværdier, dvs.
Hvis dataene kommer fra et prøveområde, kaldes det et eksempel på middelværdi (
), som er en beskrivende statistik for prøven. Selvom det er det mest anvendte beskrivende mål for en prøve, er det ikke en robust statistik. Det er meget følsomt over for outliers og svingninger.
Overvej f.eks. Den gennemsnitlige indkomst for borgerne i en bestemt by. Da alle dataværdierne opsummeres og derefter opdeles, påvirker indkomsten for en ekstremt velhavende person gennemsnittet betydeligt. Derfor er middelværdierne ikke altid en god repræsentation af dataene.
I tilfælde af et skiftevis signal varierer strømmen, der passerer gennem et element periodisk, fra den positive retning til den negative retning og omvendt. Hvis vi tager den gennemsnitlige strøm, der passerer gennem elementet i en enkelt periode, giver den en 0, hvilket betyder, at der ikke er gået nogen strøm gennem elementet, hvilket naturligvis ikke er sandt. Derfor er aritmetisk gennemsnit også i dette tilfælde ikke et godt mål.
Det aritmetiske gennemsnit er en god indikator, når dataene fordeles jævnt. For en normalfordeling er gennemsnittet lig med tilstanden og medianen. Det har også de laveste rester, når man overvejer den gennemsnitlige kvadratfejl; derfor den bedste beskrivende foranstaltning, når det kræves at repræsentere et datasæt med et enkelt nummer.
Median
Værdierne for det midterste datapunkt efter at have arrangeret alle dataværdierne i stigende rækkefølge er defineret som medianen for datasættet. Median er 2. kvartil, 5. decil og 50. percentil.
• Hvis antallet af observationer (datapunkter) er ulige, er medianen observationen nøjagtigt midt på den ordnede liste.
• Hvis antallet af observationer (datapunkter) er jævnt, så er medianen gennemsnittet af de to midterste observationer i den ordnede liste.
Median deler observationen i to grupper; dvs. en gruppe (50%) af højere værdier og en gruppe (50%) af værdier lavere end medianen. Medianer bruges specifikt i skæv fordelinger og repræsenterer data temmelig bedre end det aritmetiske gennemsnit.
Mode
Mode er det mest forekommende tal i et sæt observationer. Mode for et datasæt beregnes ved at finde frekvensen af hvert element i sættet.
• Hvis der ikke forekommer nogen værdi mere end én gang, har datasættet ingen tilstand.
• Ellers er enhver værdi, der forekommer med den største frekvens, en tilstand af datasættet.
Mere end 1 tilstand kan eksistere i et sæt; derfor er tilstand ikke en unik statistik for et datasæt. I en ensartet fordeling er der en tilstand. Mode for en diskret sandsynlighedsfordeling er det punkt, hvor sandsynlighedsmassefunktionen når sit højeste punkt. Gengivelse fra ovenstående fortolkninger kan vi sige, at globale maksima er tilstande.
Overvej anvendelsen af alle tre foranstaltninger til følgende datasæt.
DATA: {1, 1, 2, 3, 5, 5, 5, 5, 6, 6, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 14, 14, 15, 15, 15}
Gennemsnit = (1+ 1+ 2+ 3+ 5+ 5+ 5+ 5+ 6+ 6+ 8+ 8+ 9+ 9+ 9+ 9+ 9+ 10+ 10+ 10+ 14+ 14+ 15+ 15+ 15) / 25 = 8.12
Median = 9 (13. element)
Mode = 9 (frekvens 9 = 5)
Hvad er forskellen mellem middelværdi, median og tilstand?
• Aritmetisk gennemsnit er summen af værdierne (observationer) divideret med antallet af observationer. Det er ikke en robust statistik og er stærkt afhængig af normalfordelingsnaturen inden for den betragtede distribution. En enkelt outlier kan forårsage et markant skift i middelværdien, der giver relativt vildledende værdier. Konceptet kan udvides til geometrisk gennemsnit, harmonisk gennemsnit, vægtet gennemsnit og så videre.
• Median er midterværdierne for observationssættet, og det påvirkes relativt mindre af outliers. Det kan give et godt skøn som resuméstatistikken i meget skæve tilfælde.
• Mode er de mest almindelige observationsværdier i datasættet. Hvis fordelingen er positiv skæv, ligger tilstanden til venstre for medianen, og hvis den er negativt skæv, ligger tilstanden lige til medianen.
• Hvis positivt skævt, er gennemsnit ret til medianen; hvis negativt skævt middel er til venstre for medianen.
• I normalfordelingen er alle tre, middelværdier, tilstand og medianer ens.