Ikke les for mye ut av små datagrunnlag

Sist oppdatert:

Varselbjellene bør ringe hvis det er de minste avdelingene som topper statistikken. Her er en metode for å ikke la deg lure.

Vi vil så gjerne fortelle en meningsfull historie om tallene våre. Men om du hører deg selv si: «De små kontorene/avdelingene/kategoriene våre er tydeligvis de beste», bør du stoppe opp.

Det kan være at de trekkes opp av de de små talls lov.

Små utvalg har større spredning i tallene, og du vil derfor finne dem både i toppen og bunnen av rangeringene.

Eksempel: Foreldreundersøkelsen

Hver gang det er foreldreundersøkelse, skriver avisene om barnehagene med best resultater. Det er nesten alltid de minste barnehagene.

Liten barnehage med toppskår.

Kanskje har styreren rett i at barnehagen faktisk er bedre siden den er liten. Men det er også en fare for at det kun er en narrativ feilslutning – at vi forteller en historie om noe som ikke er der.

Ifølge de små talls lov kan vi forvente at de minste barnehagene har best skår. Men vi kan også forvente at de har dårligst skår.

I små utvalg får du sterke utslag i begge retninger. I store utvalg trekkes resultatet mot gjennomsnittet.

Når vi plotter resultatene fra foreldreundersøkelsen i avisartikkelen mot antall respondenter, ser du at variasjonen er større der det er færre svar.

Foreldreundersøkelsen 2023

Barnehagen i artikkelen er helt oppe i venstre hjørne. Det kan være en velfortjent skår, men den er mer påvirket av tilfeldig variasjon enn barnehagene med flere svar.

Se etter en traktform

Med andre typer undersøkelser vises de små talls lov som en traktform. Det var ikke så lett å se med barnehagene fordi de fleste svarte i toppen av skalaen, men det er lettere å se effekten her, i denne grafen om tarmkreft i Storbritannia fra Paul B.

Tarmkreftdødelighet per 100 000 i britiske regioner

Også her er det fristende å skrive at regionene helt til venstre har unormalt høy eller lav dødelighet. Nå vet vi at det ikke nødvendigvis er riktig, siden dette er regionene med minst befolkning. Det er mer hold for å si at Glasgow til høyre har unormalt høy dødelighet enn en liten øykommune til venstre. Glasgow har en større befolkning, og dermed mindre tilfeldig variasjon.

Hva kan du gjøre?

Det viktigste du kan gjøre er å se på små utvalg med sunn skepsis.

En annen enkel løsning er å bare se bort fra de minste utvalgene. Da overtolker du det i alle fall ikke.

Problemet med å ikke ta med de minste utvalgene, er at du går glipp av data. En bedre måte er å bruke et triks fra den gode pastor Thomas Bayes: Å legge til et antall gjennomsnittlige svar.

Bayesiansk gjennomsnitt i barnehagen

Legg til 10 fiktive foreldre som er helt OK fornøyde til hver av barnehagene.

Det vil trekke skåren i retning av gjennomsnittet, men effekten vil bli størst på de små utvalgene, siden det alltid er 10. For de små barnehagene vil det trekke skåren kraftig mot gjennomsnittet. De største vil ikke bli så påvirket.

Før og etter justering av skårer

Tanken bak er enkel: Ekstraordinære resultater krever ekstraordinære bevis.

Og i fravær av ekstraordinære bevis må vi starte med å anta at alle er gjennomsnittlige. Derfor legger vi til en gruppe med standardsvar.

Bayesianske bokanmeldelser

Nettbutikker og rangeringssider bruker enten bayesiansk gjennomsnitt eller mer sofistikerte metoder.

For å illustrere med et eksempel: Si at du har fått én anmeldelse på fem stjerner for din røde bok📕. Den grønne boken📗 har fått 50 anmeldelser på i snitt 4,7.

Med et flatt snitt vil den røde boken ha høyere gjennomsnittlig anmeldelse enn den grønne.

For å ta høyde for forskjellen i antall anmeldelser, legg til 10 svar til begge på 4 stjerner (vi antar at det er gjennomsnittet for alle bøker). Da får du en utjevnet skår som er mye nærmere snittet for 📕 og bare litt nærmere for 📗:

📕 📗
Skår 5,0 4,7
Antall 1 50
+ Standardskår 4,0 x 10 4,0 x 10
= Justert skår 4,1 4,6
Utregningen er enkel

Oppsummert

Vær på vakt når du ser ekstraordinære resultater fra små utvalg.

Du kan se helt bort fra dem, men da går du glipp av data.

Hvis du vil ha dem med, kan du vekte gjennomsnittet slik at de minste avdelingene ikke slår ut så hardt.

Kilder og inspirasjon

Denne artikkelen er inspirert av Gaute Hovtuns innlegg på LinkedIn om lottomillionærer i Verdalen.

Det endte med at vi skrev hvert våre nye innlegg om de små talls lov:

For ordens skyld: Grafene er fra 2023-undersøkelsen, og avisartikkelen er fra 2022. De illustrerer likevel de små talls lov.