Innledning

Det finnes en regneregel i statistikken som har fått kjælenavnet LOTUS - Law Of The Unconscious Statistician. Den kalles dette fordi regelen anses for å være så "opplagt" at mange læreverk konkluderer med at "dette er åpenbart" og enten glemmer det, eller ikke innser at det er en regel som kan (og bør!) føres rigorøst.

Forkunnskap

Før vi starter med beviset, så antas det å være kjent at formelen for forventning til en stokastisk variabel er $$\displaystyle E[X] = \sum\limits_{x}x\cdot P(X=x)$$ Dersom du ikke har kommet så langt enda, så anbefales det å starte herfra.

Motivasjon

Hvorfor er det nyttig å vite hvordan man regner ut forventningen til en funksjon av den stokastiske variablen? La oss si at du har gjort målinger på hvor mye arbeid du utfører på en gitt dag, og at du får betalt for arbeidsmengden. Eksempelvis, la oss si at du som jordbærplukker får betalt per kg. jordbær du plukker. Eller kanskje du er elektriker og får betalt per stikkontakt du kopler opp mot sikringsskapet.

Men hva hvis det er forventet lønn du ønsker å kalkulere? Vel, så lenge lønna er en funksjon av arbeidsmengden, så kan vi kalkulere forventet lønn, så lenge vi har forventet arbeidsmengde.

Eksempel

Du er en jordbærplukker, og får betalt per dag. Du får 250kr. for å dukke opp hver dag, i tillegg til 100kr. per kilo bær du plukker, avrundet til nærmeste heltall. Funksjonen for lønna blir $$L(x) = 250 + 100x$$

Du har ført statistikk over hvor mange kilo bær du plukker hver dag. La $X$ være den stokastiske variablen som representerer antall kilo bær du plukker på en dag, og la oss si at gjennomsnittlig antall kilo bær du plukker per dag er $E[X] = 6kg$. Hva er forventet lønn?

La lønna være gitt ved $L(X)$. Det er en funksjon av $X$ fordi lønna er regnet direkte ut fra antall kilo plukket. Hva er $E[L(X)]$? Med andre ord, hva er gjennomsnittlig daglig lønn?

Det kan være lett å godta at $$\displaystyle E[L(X)] = \sum\limits_{x}L(x)\cdot P(X=x)$$ og det vil også være riktig. $E[L(X)]$ er gjennomsnittlig $L$-verdi, på samme måte som at $E[X]$ er gjennomsnittlig $X$-verdi.

Det er faktisk så vanlig å bare godta dette som sant, at loven har fått navnet LOTUS - Law Of The Unconscious Statistician. Dette er et nikk til det faktum at de fleste læreverk for statistikk anser dette resultatet som så opplagt at de ikke bryr seg om å bevise det!

Beviset vi gjennomgår her er spesifikt for diskret stokastiske variabler. Det finnes et tilsvarende bevis når det gjelder kontinuerlige stokastiske variabler, og det kommer som en del av den aktuelle spillelista.

Bevis

La $X$ være en diskret stokastisk variabel, og la $x \in \Omega_X$ være verdier i utfallsrommet.

La $Y$ være en funksjon av $X$, så $Y = g(X)$, og la $y \in \Omega_Y$ være verdier i utfallsrommet til $Y$.

Vi vet, fra definisjonen av forventing at $$\displaystyle E(Y) = \sum\limits_{y \in \Omega_Y} y\cdot P(Y=y)$$

Videre kan vi erstatte $P(Y=y)$ med summen av sannsynlighetene for at $X$ tar verdien som gjør at $Y=y$: $$\displaystyle P(Y=y) = \sum\limits_{x\in\Omega_X \ | \ g(x) = y} P(X=x)$$

Og til slutt erstatter vi $y$ med $g(x)$ slik at vi kun trenger å summere over $x\in \Omega_X$.

Beviset lyder altså: $$\displaystyle \begin{align*} E(Y) &= \sum\limits_{y \in \Omega_Y} y \cdot P(Y=y) \\ &= \sum\limits_{y \in \Omega_Y} y \cdot \left[ \sum\limits_{x \in \Omega_X \ | \ g(x) = y} P(X=x)\right] \\ &= \sum\limits_{x \in \Omega_X} g(x) \cdot P(X=x) \end{align*} $$

Konklusjon

Vi ser herfra at hvis vi har en stokastisk variabel $X$ og en funksjon $Y = g(X)$ så kan vi finne forventninga til $Y$ ved å bare erstatte $x$ med $g(x)$ i formelen for $E(X)$. Det er som sagt veldig lett å akseptere et så "åpenbart" resultat uten å føre et stringent bevis for det, men jeg hadde lyst til å få med beviset i statistikk-kurset likevel, selv om det ble som en artikkel og ikke en egen video.