Handelsgymnasiernes Matematiklærerforening

Årsmøde 2023

Authors
Affiliations

Claus Thorn Ekstrøm

Biostatistik, KU

Søren Højsgaard

Matematik, AAU

Indledning

Program

  • 10-11 Deskriptiv statistik

  • 11-12 Regression og konfidensintervaller

  • 12-13 Frokost

  • 13-14 Multipel regression

  • 14-15 Modelvalidering

  • 15-16 Antalstabeller

Hvad er statistik?

  • Mønstre.
    Hvad ser vi?
  • Prædiktion.
    Hvad forventer vi ved ny observation?
  • Sammenhænge.
    Hvad giver info om hvad?
  • Kausalitet.
    Hvorfor?

Deskriptiv statistik

Eksempel: Højde på gymnasielærere

Eksempel: højde på \(n=30\) danske gymnasielærere på et statistikseminar på Mariagerfjord gymnasium i Hobro i 2019.

h 165 166 167 167 167 168 169 169 170 172 172 174 175 178
k k k k k k k k k k k k k k k
h 169 176 178 178 178 178 179 179 179 180 181 181 185 186 189 190
k m m m m m m m m m m m m m m m m

Bemærk: højderne er sorteret inden for køn. Det er altid en god idé at sortere sine data.

Bemærk: i det følgende vil vi se bort fra køn.


165 166 167 168 169 170 172 174 175 176 178 179 180 181 185 186 189 190
1 1 3 1 3 1 2 1 1 1 5 3 1 2 1 1 1 1
[165,170] (170,175] (175,180] (180,185] (185,190]
10 4 10 3 3

Man skal tegne før man må regne

Hvor er data? Lokation og spredning

Hvor er data placeret? Lokation.

\[ \bar x = \frac 1 n \sum_i x_i = 175.5 \]

Hvor spredte er data? Variation:

\[ s = \sqrt{\frac 1 {N-1} \sum_i (x_i-\bar x)^2} = 6.95 \]


Alternativer - lokation:

aritmetisk geometrisk  harmonisk     median       mode 
       176        175        175        177        178 

Alternativer - variation:

  max   min range   iqr   mad    sd 
190.0 165.0  25.0  10.0   7.4   6.9 

Bemærk: Hvis histogram har een top og data er nogenlunde symmetrisk fordelte herom, så er forskellen mellem max og min ca 4 standardafvigelser.

Statistiske grundbegreber

Potentielt vanskelige begreber

  • Stokastisk variabel

  • Normalfordeling

  • Population vs stikprøve

  • Populationsparametre, estimater og estimatorer

  • Fordelingen af gennemsnit

  • Hypotesetest - taler data imod en bestemt formodning

  • Konfidensinterval - trolige værdier for populationsparameter

Stokastisk variabel

Stokastisk variabel, aleatorisk variabel, tilfældig variabel (aleatorisk=terningspiller)

  1. En funktion der tilskriver værdi til resultatet af et eksperiment. (Antal øjne i kast med terning).

  2. En variabel hvis værdi er ukendt. (Lærer NNs højde)

Betegner ofte stokastisk variabel med store bogstaver.

Når data er observeret så taler man om realiseret værdi af stokastisk variable.


Bemærk: Lærer NNs højde er ukendt for mig (indtil jeg har spurgt) men den er kendt for lærer NN selv.

Lærernes højde når de er ukendte for mig: Stokastiske variable: \(X_1, X_2, \dots, X_{30}\).

Lærernes højde efter jeg har spurgt: Realiserede værdier: \(x_1=165, x_2=166, \dots, x_{30}=190\)

Normalfordeling

Histogram: data kunne være realiserede værdier af uafhængige normalfordelte stokastiske variable \(X_i \sim N(\mu, \sigma^2)\).

\(\bar x\) er estimat for \(\mu\)

\(s\) er estimat for \(\sigma\).

Population og stikprøve

  • Vi ønsker at udtale os om populationen (af danske gymnasielærere i matematik). Population er nogle gange et underligt begreb.

  • Sker på baggrund af en repræsentativ stikprøve af data fra populationen. (Udover dette formål er stikprøven ikke særlig interessant)

Populationsparametre og estimater

  • I populationen (af danske matematiklærere): Middelhøjden er \(\mu\); spredningen er \(\sigma\).

  • I stikprøven: Gennemsnit \(\bar x\) og stikprøvespredningen \(s\).

  • Estimater

    • \(\bar x\) er estimat for middelhøjden i populationen: \(\hat\mu = \bar x\)

    • \(s\) er estimat for spredningen i populationen \(\hat \sigma = s\)

  • Skriver ofte \(\mu=\mu(X)\) og \(\sigma=\sigma(X)\) for at understrege at disse spredning / middelværdi for stokastisk variabel.

  • Skriver ofte \(\hat\mu(x)\) og \(\hat\sigma(x)\) eller \(\hat\mu(x_1, \dots x_n)\) og \(\hat\sigma(x_1, \dots, x_n)\) for at understrege at disse størrelser er funktioner af data.

Estimatorer og estimater

Hvis \(X_1,\dots,X_n\) er stokastiske variable, så må funktioner heraf også være stokastiske variable (Hvis \(X_i\)ernes værdi er ukendte så gælder det også \(\bar X\)):

\[ \bar X = \frac 1 n \sum_i X_i \]

  • Estimator: \(\hat\mu(X) = \bar X = \frac 1 n \sum_i X_i\) er en stokastisk variabel

  • Estimat: \(\hat\mu(x) = \bar x = \frac 1 n \sum_i x_i\) er en realiseret værdi af \(\hat\mu(X)\) (gennemsnit; et tal, der kan regnes ud).

Standardfejl på estimater

Gentager vores studium (= nyt statistikseminar med 30 tilfældigt udvalgte gymnasielærere) \(M=100\) gange. Gennemsnittet vil variere fra gang til gang. De første gennemsnit er:

174 175 177 177 176 174

Gennemsnittet varierer meget mindre end data.


Den matematiske sammenhæng er simpel: Spredningen på \(\bar X\) (som stokastisk variabel) er:

\[ \sigma(\hat\mu(X)) = \sigma(\bar X) = \sigma / \sqrt{n} \]

Denne estimeres ved \(\hat\sigma(x) / \sqrt{n} = 6.95 / 5.48 = 1.27.\)

Dette afspejles ret præcist i stikprøvespredningen af \(\bar x_1, \dots, \bar x_{100}\):

\[ \hat\sigma(\bar x_1, \dots, \bar x_{100}) = \frac 1{100-1} \sum_{j=1}^{100} (\bar x_j - \bar{\bar{x}})^2 = 1.29 \] hvor \(\bar{\bar{x}}=\frac 1{100} \sum_{j=1}^{100} \bar x_j = 175.34\)


For at opsummere:

  • \(\hat\sigma(\hat\mu(X)) \approx \hat\sigma(x) / \sqrt{n} = 1.27\) er standardfejlen på estimatet \(\hat\mu\) og

  • Stikprøvespredningen af \(\hat\sigma(\bar x_1, \dots, \bar x_{100})\) af \(\bar x_1, \dots, \bar x_{100}\) afspejler ret nøjagtigt denne standardfejl.

  • Sidstnævnte er den praktiske fortolkning af førstnævnte

z-score

En \(z\)–score er defineret som:

\[ z = \hat\mu / \hat\sigma(\hat\mu) \]

\(z\)-scoren er et mål for, hvor mange standardafvigelser gennemsnittet (mere generelt: estimatet) er fra \(0\):

\[\hat\mu - 0 = z \times \hat\sigma(\hat\mu)\]

NB: Den størrelse er uafhængig af hvilken skala data er målt på.


Minder om generel regel: Hvis \(X\sim N(\mu, \sigma^2)\) så er \[Z=\frac{X-\mu}{\sigma} \sim N(0,1)\]

NB: \(Z\) har ingen enheder.

Middelhøjden af danske mænd/kvinder er \(181.4\) cm/ \(167.2\) cm i 2023 og dermed er middelhøjden af befolkningen \(174.3\) cm. Måle hvor mange standardafvigelser gennemsnittet er fra denne højde.

\[ z = (\hat\mu - \mu_0) / \hat\sigma(\hat\mu) = 0.95 \]

Hypotesetest

Hypotese (formodning): Den sande middelværdi i populationen af gymnasielærere er \(\mu_0=174.3\) cm.

Den hypotese kan man lave et statistisk test af.

Logikken er:

  • Man bruger ikke data til at “bevise” at man har ret (at hypotesen er rigtig)

  • Man bruger data til at “bevise” at man tager fejl (at hypotesen er forkert)

Analogi: Data er landskab. Hypotese er et kort, dvs model af landskabet. Hvis kort ikke passer med landskabet, så er det landskabet der er rigtigt.


Vi har \(\bar x = 175.5\) og \(\mu_0=174.3\).

  • Taler data imod hypotesen?

  • Er \(|\bar x - \mu_0|=1.2\) så stor at det er usandsynligt at observere gennemsnittet \(\bar x = 175.5\) hvis populationsmiddelværdien er \(\mu_0=174.3\)?

  • z-score: \(z=\frac{\bar x - 174.3}{\sigma/\sqrt{n}}=0.95\) så gennemsnittet er ca \(1\) standardafvigelse fra \(\mu_0\)

  • Er \(z\approx 1\) det et stort tal?


Hypotesetest og beslutning

Hvis den sande middelværdi er \(\mu = \mu_0 = 174.3\) så er den stokastiske variabel

\[ Z=\frac{\bar X - 174.3}{\sigma/\sqrt{n}}\sim N(0,1) \]

I en \(N(0,1)\)-fordeling er der 95% sandsynlighed for en observation i intervallet \([-1.96; 1.96]\); dvs i intervallet \([-2;2]\).

Vi siger at vi forkaster hypotesen på niveau 5% hvis \(z\) ligger udenfor intervallet \([-1.96; 1.96]\); og ellers accepterer vi hypotesen.

Med \(z\approx 1\) accepteres hypotesen om at populationsmiddelværdien \(\mu\) blandt danske matematiklærere er \(174.3\).


Hypotesetest og p-værdi

Vi har observeret \(z=0.95\), og numerisk store værdier af \(z\) får os til at tvivle på hypotesen at \(\mu=\mu_0 = 174.3\)

Hvis hypotesen er sand så er \(Z=\frac{\bar X - 174.3}{\sigma/\sqrt{n}}\sim N(0,1)\).

Vi spørger nu: Hvad er sandsynligheden for at observere værdier af \(Z\) der er numerisk større en den numeriske værdi af \(z\)?

  • Hvis sandsynligheden er lille så må \(z\) være en “usandsynlig værdi” og det får os til at betvivle /forkaste hypotesen.

  • Hvis sandsynligheden er stor så må \(z\) være en “plausibel værdi” og det får os til at tro på / acceptere hypotesen.


Denne sandsynlighed kaldes for \(p\)-værdien.

Vi har \(p = 0.34\)

Man siger, at \(p\)-værdien er mål for evidens mod hypotesen.

Ofte forkaster man hypotesen hvis \(p\)-værdien er mindre end 5%.

I begge tilfælde

Bemærk: Vi har ikke bevist at \(\mu\) er lig \(174.3\); vi har påvist at data ikke taler imod hypotesen.

Hvad med hypotesen at middelhøjden af danske matematiklærere er \(181.4\) (middelhøjden af danske mænd) eller \(167.2\) (middelhøjden af danske kvinder)?

Konfidensinterval

Vi kan teste hypotese \(\mu=\mu_0\) for forskellige værdier af \(\mu_0\). I hvert tilfælde handler det om at afgøre om tilhørende z-score ligger indenfor eller udenfor \([-2;2]\).

Interval af accepterede værdier: \([173; 178]\)


Dette interval \([173; 178]\) er et 95% konfidensinterval for middelværdien \(\mu\)

\[ I = [\bar x - 1.96 \sigma/\sqrt{n}; \bar x + 1.96 \sigma/\sqrt{n}] \]

Bemærk: Det giver ikke mening at tale om at der er 95% sandsynlighed for at \(\mu\) ligger i intervallet \([173; 178]\).

Enten ligger \(\mu\) i intervallet eller også gør \(\mu\) det ikke.

Intervallet er de værdier af \(\mu_0\) der “passer med data”.


Hvis vi gentager studiet mange gange kan vi for hver gentagelse i beregne et 95% konfidensinterval:

Ca. 95% af disse konfidensintervaller vil indeholde den sande middelværdiparameter \(\mu\), men vi ved blot ikke

  1. Hvilke af disse intervaller der indeholder \(\mu\) og

  2. Hvor i disse intervaller \(\mu\) ligger.

Data

Et klassisk (og ret gammelt) datasæt: Egenskaber ved 32 forskellige biler. En beskrivelse af variablene kan findes HER.

mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.62 16.5 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.88 17.0 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.32 18.6 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.21 19.4 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.44 17.0 0 0 3 2
Valiant 18.1 6 225 105 2.76 3.46 20.2 1 0 3 1
Duster 360 14.3 8 360 245 3.21 3.57 15.8 0 0 3 4
Merc 240D 24.4 4 147 62 3.69 3.19 20.0 1 0 4 2
Merc 230 22.8 4 141 95 3.92 3.15 22.9 1 0 4 2
Merc 280 19.2 6 168 123 3.92 3.44 18.3 1 0 4 4
Merc 280C 17.8 6 168 123 3.92 3.44 18.9 1 0 4 4
Merc 450SE 16.4 8 276 180 3.07 4.07 17.4 0 0 3 3
Merc 450SL 17.3 8 276 180 3.07 3.73 17.6 0 0 3 3
Merc 450SLC 15.2 8 276 180 3.07 3.78 18.0 0 0 3 3
Cadillac Fleetwood 10.4 8 472 205 2.93 5.25 18.0 0 0 3 4
Lincoln Continental 10.4 8 460 215 3.00 5.42 17.8 0 0 3 4

mpg cyl disp hp drat wt qsec vs am gear carb
Chrysler Imperial 14.7 8 440.0 230 3.23 5.34 17.4 0 0 3 4
Fiat 128 32.4 4 78.7 66 4.08 2.20 19.5 1 1 4 1
Honda Civic 30.4 4 75.7 52 4.93 1.61 18.5 1 1 4 2
Toyota Corolla 33.9 4 71.1 65 4.22 1.83 19.9 1 1 4 1
Toyota Corona 21.5 4 120.1 97 3.70 2.46 20.0 1 0 3 1
Dodge Challenger 15.5 8 318.0 150 2.76 3.52 16.9 0 0 3 2
AMC Javelin 15.2 8 304.0 150 3.15 3.44 17.3 0 0 3 2
Camaro Z28 13.3 8 350.0 245 3.73 3.84 15.4 0 0 3 4
Pontiac Firebird 19.2 8 400.0 175 3.08 3.85 17.1 0 0 3 2
Fiat X1-9 27.3 4 79.0 66 4.08 1.94 18.9 1 1 4 1
Porsche 914-2 26.0 4 120.3 91 4.43 2.14 16.7 0 1 5 2
Lotus Europa 30.4 4 95.1 113 3.77 1.51 16.9 1 1 5 2
Ford Pantera L 15.8 8 351.0 264 4.22 3.17 14.5 0 1 5 4
Ferrari Dino 19.7 6 145.0 175 3.62 2.77 15.5 0 1 5 6
Maserati Bora 15.0 8 301.0 335 3.54 3.57 14.6 0 1 5 8
Volvo 142E 21.4 4 121.0 109 4.11 2.78 18.6 1 1 4 2

Spørgsmål

Vi ønsker at undersøge om variationen i brændstoføkonomien mpg kan forklares med variationen i vægt wt og motorkraft hp.

Plottet viser klart en sammenhæng:

Simpel lineær regression

Vi opfatter mpg som respons \(y\) og hp som forklarende variabel \(x\). Regressionsmodellen er

\[ y_i = b_1 + b_2 x_i + e_i \]

term estimate std.error statistic p.value sigs lwr upr
(Intercept) 30.099 1.63 18.42 0 * * * 26.762 33.436
hp -0.068 0.01 -6.74 0 * * * -0.089 -0.048
  • estimate: Estimaterne \(\hat b_1\) og \(\hat b_2\) for de ukendte parametre \(b_1\) og \(b_2\).

  • std.error: Standardfejl \(\sigma(\hat b_1)\) og \(\sigma(\hat b_2)\) på estimaterne.

  • statistic: estimatet divideret med standardfejlen; en z-score


  • p.value: Sandsynligheden for at observere en værdi af statistic der er mere ekstrem end den der faktisk er observeret hvis den pågældende parameter er lig \(0\).

  • sigs: Een * betyder at z-scoren er ekstrem (udenfor intervallet \([-2,2]\)); flere *’er betyder mere ekstrem.

  • lwr / upr: Man kan omsætte statistic (z-score) til et konfidensinterval. Hvis \(0\) ligger i intervallet, så kunne den pågældende parameter godt være \(0\). Det svarer til, at teststørrelsen ovenfor ligger i intervallet \([-2,2]\).

term estimate std.error statistic p.value sigs lwr upr
(Intercept) 30.099 1.63 18.42 0 * * * 26.762 33.436
hp -0.068 0.01 -6.74 0 * * * -0.089 -0.048

Ændring af skala

For illustrations skyld, lad os lave mpg om til km/l (skal blot gange med 0.42):

term estimate std.error statistic p.value sigs lwr upr
(Intercept) 12.642 0.686 18.42 0 * * * 11.240 14.04
hp -0.029 0.004 -6.74 0 * * * -0.037 -0.02
  • Vi ser, at estimat og standardfejlen også ændrer sig men statistic gør ikke.

  • Det er ganske betryggende for det betyder, at den konklusion vi drager ikke afhænger af den enhed vi måler i.

Hvor godt passer modellen - grafisk undersøgelse

Beregn:

  • predikterede værdier \(\hat y_i = \hat b_1 + \hat b_2 x_i\) og

  • residualer \(r_i=y_i - \hat y_i\)

To standard plots at lave:

  1. plot \(\hat y_i\) mod \(y_i\). Hvis modellen er “god” bør punkterne ligge omkring enhedslinjen.

  2. plot \(r_i\) mod \(\hat y_i\). Hvis modellen er “god” bør punkterne ligge ustrukturerede; som et skud hagl på en ladeport.


  • Hvorvidt modellen passer godt nok, er altid et spørgsmål om hvad modellen skal bruges til.

Plots indikerer, at modellen ikke passer fantastisk godt:

  • hp ikke forklarer al variation i mpg.

  • plot af observerede værdier mod prædikterede burde ligge i cigar-formet sky; ikke i en banan-formet sky.

Added variable plot

  • Residualen afspejler den del at variationen i data som modellen (dvs hp) ikke kan forklare,

  • Derfor fristende at plotte residualen mod en anden variable, for eksempel wt, qsec, am

  • Der er en systematik i nogle af disse plots, men er de væsentlige?

Multipel regression

Plots ovenfor viser at brændstoføkonomien mpg falder når både hp og wt stiger (hvilket er at forvente). Dette kan kvantificeres ved en multipel regressionsmodel:

\[ y_i = b_1 + b_2 x_{i1} + b_3 x_{i2} + e_i \]

term estimate std.error statistic p.value sigs lwr upr
(Intercept) 27.611 8.420 3.28 0.003 * * 10.363 44.858
hp -0.018 0.015 -1.19 0.244 -0.049 0.013
wt -4.359 0.753 -5.79 0.000 * * * -5.901 -2.817
qsec 0.511 0.439 1.16 0.255 -0.389 1.411

Fortolkning

Fortolkningen er:

  • Når hp vokser med een enhed så ændres mpg med -0.018, hvis “alt andet er lige”.

  • Når wt vokser med een enhed så ændres mpg med -4.359, hvis “alt andet er lige”.

  • Når qsec vokser med een enhed så ændres mpg med 0.511, hvis “alt andet er lige”.

Kolinearitet

  • Vægt og hestekræfter følges ad. Man siger, at disse to variable er ko-lineære.
  • Et klassisk problem med fortolkningen af en multipel regressionsmodel er, at “alt andet” næsten aldrig er lige.

  • Det fører for vidt her at komme ind på hvordan man tager højde for sådan en kolinearitet.

Hvor godt passer modellen - grafisk undersøgelse

  • Den multiple regressionsmodel er passer langt bedre på data end den simple lineære regressionsmodel.

  • Krumning indikerer at modellen ikke passer helt fantastisk godt til data.

  • Hvorvidt modellen passer godt nok, er altid et spørgsmål om hvad modellen skal bruges til.

Om kolinearitet og polynomiel regression

  speed dist
1     4    2
2     4   10
3     7    4
4     7   22
5     8   16
6     9   10
   speed dist
45    23   54
46    24   70
47    24   92
48    24   93
49    24  120
50    25   85

Sammenhæng mellem x og y?



Mulige modeller

\[\begin{align} y &= b_1 + b_2 \times speed + e \\ y &= b_1 + b_2 \times speed + b_3 \times speed^2 + e \\ y &= b_1 + b_3 \times speed^2 + e \\ y &= b_3 \times speed^2 + e \end{align}\]

NB: Alle modeller er linære som funktion af parametrene: Lad \(b=(b_1,b_2,b_3)\). Så er

\[ l(b)=l((b_1,b_2,b_3)) = b_1 + b_2 \times speed + b_3 \times speed^2 \]

en lineær afbildning


term estimate std.error statistic p.value sigs lwr upr
(Intercept) -17.58 6.758 -2.60 0.012 * -31.2 -3.99
speed 3.93 0.416 9.46 0.000 * * * 3.1 4.77
term estimate std.error statistic p.value sigs lwr upr
(Intercept) 2.470 14.817 0.167 0.868 -27.338 32.278
speed 0.913 2.034 0.449 0.656 -3.179 5.006
I(speed^2) 0.100 0.066 1.515 0.136 -0.033 0.233
term estimate std.error statistic p.value sigs lwr upr
(Intercept) 8.860 4.086 2.17 0.035 * 0.644 17.076
I(speed^2) 0.129 0.013 9.78 0.000 * * * 0.102 0.155
term estimate std.error statistic p.value sigs lwr upr
I(speed^2) 0.153 0.007 21.5 0 * * * 0.139 0.168

Hvorfor bruger man ordet regression?

En post om ordet regression

En statistisk model

En statistisk model er et sæt af antagelser omkring den datagenererende proces.

Den DGP giver anledning til

\[ \text{Observation} = \text{sand sammenhæng + støj} \] Men den DGP er ukendt så i praksis arbejder man med \[ \text{Observation} = \text{statistisk model + obs. støj} \]

Anscombes data

Alle har hældning 0.5 og skæring 3. Og samme \(R^2\)!

Datasaurus

Hvilende stofskifte og kropsvægt

Hvilken model?

Vi bruger modelkontrol til at

  1. Checke at modellen fanger den overordnede trend
  2. Checke at modellen er rimelig overalt!
  3. Hvis vi skal teste noget: checke at antagelserne er tilnærmelsesvis opfyldte.

“Man skal tegne før man må regne

Residualer

Hvornår er en model god? Det er den, når man kan beskrive det man ser OG generaliseres til nye observationer OG fortolkes

The negative and positive errors should cancel out ⇒ Zero overall error Many lines will satisfy this criterion

Residualplot - er antagelserne opfyldte?

Ser modellen ud til at passe?

  1. Middelværdi ca. 0 overalt
  2. Ingen systematiske afvigelser
  3. Check for outliers
  4. Varianshomogenitet
  5. (Uafhængighed - kan typisk ikke ses)

Hvordan går det galt?

. . .

Hvordan går det galt?

. . .

\(R^2\)

\(R^2\) er en ofte anvendt metode til at se på hvor godt en model passer til data.
\(R^2\) er den kvadrerede korrelation mellem de observerede og prædikterede værdier

\[R^2 = \frac{\sum_{i=1}^N(\widehat{y_i} - \widehat{\bar{y}})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^N(\widehat{y_i} - \widehat{\bar{y}})^2\sum_{i=1}^N(y_i - \bar{y})^2}}\]

Giver et tal mellem 0 og 1.

  • \(R^2\) er et mål for hvor meget af variansen i responsvariablen der forklares af modellen

\(R^2\) siger ikke om modellen er korrekt

\[R^2 = \frac{b_1^2 \Bbb{V}(X)}{b_1^2 \Bbb{V}(X) + \sigma^2}.\]

En forkert model kan have \(R^2\) tæt på 1

\(R^2 = 0.85\)

Siger ikke noget om prædiktionsfejl

\(R^2=0.65\)

Sammenligninger

\(R^2\) kan ikke bruges til at sammenligne modeller med utransformeret \(Y\) med en model med transformerede \(Y\)

Kan bruges til at sige noget om forskellige modeller (med samme kompleksitet) med samme udfald. Men det kan spredningen også.

Opgave - lungekapacitet

Opgave - lungekapacitet

Spillere 1/1 1951 - 7/5 2017 (N=334)

Hvad er hypotesen?

Hvordan burde fordelingen se ud? Og hvorfor?

Hvad er hypotesen?

Hvordan burde fordelingen se ud? Og hvorfor?

Chi-i-anden tests

\[X^2 = \sum_{i=1}^K \frac{(O_i - F_i)^2}{F_i}\]

for \(K\) kategorier. \(O_i\) er de observerede antal i celle \(i\) og \(F_i\) er de forventede antal.

\(F_i\) er procentdelen i hver kategori (under hypotesen).

. . .

Bemærk, at tælleren svarer til residualer. Samme idé som ved mindste kvadraters metode.

Effektstørrelser

Udfald 1 Udfald 2
Pop 1 a b
Pop 2 c d

\[p_1 = \frac{a}{a+b}, p_2 = \frac{c}{c+d}\]

  • Risikodifference

  • Risiko ratio / relativ risiko

  • Odds ratio

\(p_1 - p_2\)

\(p_1 / p_2\)

\(\frac{p_1 / (1-p_1)}{p_2 / (1-p_2)}\)

Opgave 1

I et forsøg blev det undersøgt om frugtjuice i sutteflasken ved sengetid, øger risikoen for ætsninger på tænderne.

Ætsning: ja Ætsning: nej
Frugtjuice 21 205
Ingen frugtjuice 70 1325
  1. Beregn et estimat for risikoen for at få ætsninger i de to grupper.
  2. Udregn risikodifferensen og den relative risiko.
  3. Test om der er en sammenhæng mellem hvorvidt børnene har fået frugtjuiceog ætsning. Hvad konkluderer du?

Optælling er svært

Magre tabeller

Udfald 1 Udfald 2
Pop 1 a b
Pop 2 c d

\[X^2 = \sum_{i=1}^K \frac{(O_i - F_i)^2}{F_i}\]

Hvis \(F_i\) er lille er udregningen ustabil.

Og hvad med med den estimerede effektstørrelse?

Binomialtestet

Simpelt - de forventede gruppefrekvenser er givet ved hypotesen.

Kan udlede fordelingen simpelt vha simulation.

20 møntkast. 6 kroner. Er mønten fair?

\[ \begin{split} X^2 &= \frac{(6 - 10)^2}{10} + \frac{(14 - 10)^2}{10}\\ &= 3.2 \end{split}\]

Opgave 2

Arbejdshypotese: Horoskoper er så unikke, at personer kan identificere deres eget.

Forsøg: N=84 personer præsenteres for 3 horoskoper. Et af dem deres eget.

Nulhypotese: sandsynlighed for det rigtige horoskop er 1/3.

sandsynligvis.dk

Statistiske snakke

https://biostat.ku.dk/cs/Information.pdf

Søren

Matematik, AAU

sorenh@math.aau.dk

Claus

Biostatistik, KU

ekstrom@sund.ku.dk