Handelsgymnasiernes Matematiklærerforening
Årsmøde 2023
Indledning
Program
10-11 Deskriptiv statistik
11-12 Regression og konfidensintervaller
12-13 Frokost
13-14 Multipel regression
14-15 Modelvalidering
15-16 Antalstabeller
Hvad er statistik?
- Mønstre.
Hvad ser vi? - Prædiktion.
Hvad forventer vi ved ny observation? - Sammenhænge.
Hvad giver info om hvad? - Kausalitet.
Hvorfor?
Deskriptiv statistik
Eksempel: Højde på gymnasielærere
Eksempel: højde på \(n=30\) danske gymnasielærere på et statistikseminar på Mariagerfjord gymnasium i Hobro i 2019.
h | 165 | 166 | 167 | 167 | 167 | 168 | 169 | 169 | 170 | 172 | 172 | 174 | 175 | 178 |
k | k | k | k | k | k | k | k | k | k | k | k | k | k | k |
h | 169 | 176 | 178 | 178 | 178 | 178 | 179 | 179 | 179 | 180 | 181 | 181 | 185 | 186 | 189 | 190 |
k | m | m | m | m | m | m | m | m | m | m | m | m | m | m | m | m |
Bemærk: højderne er sorteret inden for køn. Det er altid en god idé at sortere sine data.
Bemærk: i det følgende vil vi se bort fra køn.
165 | 166 | 167 | 168 | 169 | 170 | 172 | 174 | 175 | 176 | 178 | 179 | 180 | 181 | 185 | 186 | 189 | 190 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 1 | 3 | 1 | 3 | 1 | 2 | 1 | 1 | 1 | 5 | 3 | 1 | 2 | 1 | 1 | 1 | 1 |
[165,170] | (170,175] | (175,180] | (180,185] | (185,190] |
---|---|---|---|---|
10 | 4 | 10 | 3 | 3 |
Man skal tegne før man må regne
Hvor er data? Lokation og spredning
Hvor er data placeret? Lokation.
\[ \bar x = \frac 1 n \sum_i x_i = 175.5 \]
Hvor spredte er data? Variation:
\[ s = \sqrt{\frac 1 {N-1} \sum_i (x_i-\bar x)^2} = 6.95 \]
Alternativer - lokation:
aritmetisk geometrisk harmonisk median mode
176 175 175 177 178
Alternativer - variation:
max min range iqr mad sd
190.0 165.0 25.0 10.0 7.4 6.9
Bemærk: Hvis histogram har een top og data er nogenlunde symmetrisk fordelte herom, så er forskellen mellem max og min ca 4 standardafvigelser.
Statistiske grundbegreber
Potentielt vanskelige begreber
Stokastisk variabel
Normalfordeling
Population vs stikprøve
Populationsparametre, estimater og estimatorer
Fordelingen af gennemsnit
Hypotesetest - taler data imod en bestemt formodning
Konfidensinterval - trolige værdier for populationsparameter
Stokastisk variabel
Stokastisk variabel, aleatorisk variabel, tilfældig variabel (aleatorisk=terningspiller)
En funktion der tilskriver værdi til resultatet af et eksperiment. (Antal øjne i kast med terning).
En variabel hvis værdi er ukendt. (Lærer NNs højde)
Betegner ofte stokastisk variabel med store bogstaver.
Når data er observeret så taler man om realiseret værdi af stokastisk variable.
Bemærk: Lærer NNs højde er ukendt for mig (indtil jeg har spurgt) men den er kendt for lærer NN selv.
Lærernes højde når de er ukendte for mig: Stokastiske variable: \(X_1, X_2, \dots, X_{30}\).
Lærernes højde efter jeg har spurgt: Realiserede værdier: \(x_1=165, x_2=166, \dots, x_{30}=190\)
Normalfordeling
Histogram: data kunne være realiserede værdier af uafhængige normalfordelte stokastiske variable \(X_i \sim N(\mu, \sigma^2)\).
\(\bar x\) er estimat for \(\mu\)
\(s\) er estimat for \(\sigma\).
Population og stikprøve
Vi ønsker at udtale os om populationen (af danske gymnasielærere i matematik). Population er nogle gange et underligt begreb.
Sker på baggrund af en repræsentativ stikprøve af data fra populationen. (Udover dette formål er stikprøven ikke særlig interessant)
Populationsparametre og estimater
I populationen (af danske matematiklærere): Middelhøjden er \(\mu\); spredningen er \(\sigma\).
I stikprøven: Gennemsnit \(\bar x\) og stikprøvespredningen \(s\).
Estimater
\(\bar x\) er estimat for middelhøjden i populationen: \(\hat\mu = \bar x\)
\(s\) er estimat for spredningen i populationen \(\hat \sigma = s\)
Skriver ofte \(\mu=\mu(X)\) og \(\sigma=\sigma(X)\) for at understrege at disse spredning / middelværdi for stokastisk variabel.
Skriver ofte \(\hat\mu(x)\) og \(\hat\sigma(x)\) eller \(\hat\mu(x_1, \dots x_n)\) og \(\hat\sigma(x_1, \dots, x_n)\) for at understrege at disse størrelser er funktioner af data.
Estimatorer og estimater
Hvis \(X_1,\dots,X_n\) er stokastiske variable, så må funktioner heraf også være stokastiske variable (Hvis \(X_i\)ernes værdi er ukendte så gælder det også \(\bar X\)):
\[ \bar X = \frac 1 n \sum_i X_i \]
Estimator: \(\hat\mu(X) = \bar X = \frac 1 n \sum_i X_i\) er en stokastisk variabel
Estimat: \(\hat\mu(x) = \bar x = \frac 1 n \sum_i x_i\) er en realiseret værdi af \(\hat\mu(X)\) (gennemsnit; et tal, der kan regnes ud).
Standardfejl på estimater
Gentager vores studium (= nyt statistikseminar med 30 tilfældigt udvalgte gymnasielærere) \(M=100\) gange. Gennemsnittet vil variere fra gang til gang. De første gennemsnit er:
174 | 175 | 177 | 177 | 176 | 174 |
Gennemsnittet varierer meget mindre end data.
Den matematiske sammenhæng er simpel: Spredningen på \(\bar X\) (som stokastisk variabel) er:
\[ \sigma(\hat\mu(X)) = \sigma(\bar X) = \sigma / \sqrt{n} \]
Denne estimeres ved \(\hat\sigma(x) / \sqrt{n} = 6.95 / 5.48 = 1.27.\)
Dette afspejles ret præcist i stikprøvespredningen af \(\bar x_1, \dots, \bar x_{100}\):
\[ \hat\sigma(\bar x_1, \dots, \bar x_{100}) = \frac 1{100-1} \sum_{j=1}^{100} (\bar x_j - \bar{\bar{x}})^2 = 1.29 \] hvor \(\bar{\bar{x}}=\frac 1{100} \sum_{j=1}^{100} \bar x_j = 175.34\)
For at opsummere:
\(\hat\sigma(\hat\mu(X)) \approx \hat\sigma(x) / \sqrt{n} = 1.27\) er standardfejlen på estimatet \(\hat\mu\) og
Stikprøvespredningen af \(\hat\sigma(\bar x_1, \dots, \bar x_{100})\) af \(\bar x_1, \dots, \bar x_{100}\) afspejler ret nøjagtigt denne standardfejl.
Sidstnævnte er den praktiske fortolkning af førstnævnte
z-score
En \(z\)–score er defineret som:
\[ z = \hat\mu / \hat\sigma(\hat\mu) \]
\(z\)-scoren er et mål for, hvor mange standardafvigelser gennemsnittet (mere generelt: estimatet) er fra \(0\):
\[\hat\mu - 0 = z \times \hat\sigma(\hat\mu)\]
NB: Den størrelse er uafhængig af hvilken skala data er målt på.
Minder om generel regel: Hvis \(X\sim N(\mu, \sigma^2)\) så er \[Z=\frac{X-\mu}{\sigma} \sim N(0,1)\]
NB: \(Z\) har ingen enheder.
Middelhøjden af danske mænd/kvinder er \(181.4\) cm/ \(167.2\) cm i 2023 og dermed er middelhøjden af befolkningen \(174.3\) cm. Måle hvor mange standardafvigelser gennemsnittet er fra denne højde.
\[ z = (\hat\mu - \mu_0) / \hat\sigma(\hat\mu) = 0.95 \]
Hypotesetest
Hypotese (formodning): Den sande middelværdi i populationen af gymnasielærere er \(\mu_0=174.3\) cm.
Den hypotese kan man lave et statistisk test af.
Logikken er:
Man bruger ikke data til at “bevise” at man har ret (at hypotesen er rigtig)
Man bruger data til at “bevise” at man tager fejl (at hypotesen er forkert)
Analogi: Data er landskab. Hypotese er et kort, dvs model af landskabet. Hvis kort ikke passer med landskabet, så er det landskabet der er rigtigt.
Vi har \(\bar x = 175.5\) og \(\mu_0=174.3\).
Taler data imod hypotesen?
Er \(|\bar x - \mu_0|=1.2\) så stor at det er usandsynligt at observere gennemsnittet \(\bar x = 175.5\) hvis populationsmiddelværdien er \(\mu_0=174.3\)?
z-score: \(z=\frac{\bar x - 174.3}{\sigma/\sqrt{n}}=0.95\) så gennemsnittet er ca \(1\) standardafvigelse fra \(\mu_0\)
Er \(z\approx 1\) det et stort tal?
Hypotesetest og beslutning
Hvis den sande middelværdi er \(\mu = \mu_0 = 174.3\) så er den stokastiske variabel
\[ Z=\frac{\bar X - 174.3}{\sigma/\sqrt{n}}\sim N(0,1) \]
I en \(N(0,1)\)-fordeling er der 95% sandsynlighed for en observation i intervallet \([-1.96; 1.96]\); dvs i intervallet \([-2;2]\).
Vi siger at vi forkaster hypotesen på niveau 5% hvis \(z\) ligger udenfor intervallet \([-1.96; 1.96]\); og ellers accepterer vi hypotesen.
Med \(z\approx 1\) accepteres hypotesen om at populationsmiddelværdien \(\mu\) blandt danske matematiklærere er \(174.3\).
Hypotesetest og p-værdi
Vi har observeret \(z=0.95\), og numerisk store værdier af \(z\) får os til at tvivle på hypotesen at \(\mu=\mu_0 = 174.3\)
Hvis hypotesen er sand så er \(Z=\frac{\bar X - 174.3}{\sigma/\sqrt{n}}\sim N(0,1)\).
Vi spørger nu: Hvad er sandsynligheden for at observere værdier af \(Z\) der er numerisk større en den numeriske værdi af \(z\)?
Hvis sandsynligheden er lille så må \(z\) være en “usandsynlig værdi” og det får os til at betvivle /forkaste hypotesen.
Hvis sandsynligheden er stor så må \(z\) være en “plausibel værdi” og det får os til at tro på / acceptere hypotesen.
Denne sandsynlighed kaldes for \(p\)-værdien.
Vi har \(p = 0.34\)
Man siger, at \(p\)-værdien er mål for evidens mod hypotesen.
Ofte forkaster man hypotesen hvis \(p\)-værdien er mindre end 5%.
I begge tilfælde
Bemærk: Vi har ikke bevist at \(\mu\) er lig \(174.3\); vi har påvist at data ikke taler imod hypotesen.
Hvad med hypotesen at middelhøjden af danske matematiklærere er \(181.4\) (middelhøjden af danske mænd) eller \(167.2\) (middelhøjden af danske kvinder)?
Konfidensinterval
Vi kan teste hypotese \(\mu=\mu_0\) for forskellige værdier af \(\mu_0\). I hvert tilfælde handler det om at afgøre om tilhørende z-score ligger indenfor eller udenfor \([-2;2]\).
Interval af accepterede værdier: \([173; 178]\)
Dette interval \([173; 178]\) er et 95% konfidensinterval for middelværdien \(\mu\)
\[ I = [\bar x - 1.96 \sigma/\sqrt{n}; \bar x + 1.96 \sigma/\sqrt{n}] \]
Bemærk: Det giver ikke mening at tale om at der er 95% sandsynlighed for at \(\mu\) ligger i intervallet \([173; 178]\).
Enten ligger \(\mu\) i intervallet eller også gør \(\mu\) det ikke.
Intervallet er de værdier af \(\mu_0\) der “passer med data”.
Hvis vi gentager studiet mange gange kan vi for hver gentagelse i beregne et 95% konfidensinterval:
Ca. 95% af disse konfidensintervaller vil indeholde den sande middelværdiparameter \(\mu\), men vi ved blot ikke
Hvilke af disse intervaller der indeholder \(\mu\) og
Hvor i disse intervaller \(\mu\) ligger.
Data
Et klassisk (og ret gammelt) datasæt: Egenskaber ved 32 forskellige biler. En beskrivelse af variablene kan findes HER.
mpg | cyl | disp | hp | drat | wt | qsec | vs | am | gear | carb | |
---|---|---|---|---|---|---|---|---|---|---|---|
Mazda RX4 | 21.0 | 6 | 160 | 110 | 3.90 | 2.62 | 16.5 | 0 | 1 | 4 | 4 |
Mazda RX4 Wag | 21.0 | 6 | 160 | 110 | 3.90 | 2.88 | 17.0 | 0 | 1 | 4 | 4 |
Datsun 710 | 22.8 | 4 | 108 | 93 | 3.85 | 2.32 | 18.6 | 1 | 1 | 4 | 1 |
Hornet 4 Drive | 21.4 | 6 | 258 | 110 | 3.08 | 3.21 | 19.4 | 1 | 0 | 3 | 1 |
Hornet Sportabout | 18.7 | 8 | 360 | 175 | 3.15 | 3.44 | 17.0 | 0 | 0 | 3 | 2 |
Valiant | 18.1 | 6 | 225 | 105 | 2.76 | 3.46 | 20.2 | 1 | 0 | 3 | 1 |
Duster 360 | 14.3 | 8 | 360 | 245 | 3.21 | 3.57 | 15.8 | 0 | 0 | 3 | 4 |
Merc 240D | 24.4 | 4 | 147 | 62 | 3.69 | 3.19 | 20.0 | 1 | 0 | 4 | 2 |
Merc 230 | 22.8 | 4 | 141 | 95 | 3.92 | 3.15 | 22.9 | 1 | 0 | 4 | 2 |
Merc 280 | 19.2 | 6 | 168 | 123 | 3.92 | 3.44 | 18.3 | 1 | 0 | 4 | 4 |
Merc 280C | 17.8 | 6 | 168 | 123 | 3.92 | 3.44 | 18.9 | 1 | 0 | 4 | 4 |
Merc 450SE | 16.4 | 8 | 276 | 180 | 3.07 | 4.07 | 17.4 | 0 | 0 | 3 | 3 |
Merc 450SL | 17.3 | 8 | 276 | 180 | 3.07 | 3.73 | 17.6 | 0 | 0 | 3 | 3 |
Merc 450SLC | 15.2 | 8 | 276 | 180 | 3.07 | 3.78 | 18.0 | 0 | 0 | 3 | 3 |
Cadillac Fleetwood | 10.4 | 8 | 472 | 205 | 2.93 | 5.25 | 18.0 | 0 | 0 | 3 | 4 |
Lincoln Continental | 10.4 | 8 | 460 | 215 | 3.00 | 5.42 | 17.8 | 0 | 0 | 3 | 4 |
mpg | cyl | disp | hp | drat | wt | qsec | vs | am | gear | carb | |
---|---|---|---|---|---|---|---|---|---|---|---|
Chrysler Imperial | 14.7 | 8 | 440.0 | 230 | 3.23 | 5.34 | 17.4 | 0 | 0 | 3 | 4 |
Fiat 128 | 32.4 | 4 | 78.7 | 66 | 4.08 | 2.20 | 19.5 | 1 | 1 | 4 | 1 |
Honda Civic | 30.4 | 4 | 75.7 | 52 | 4.93 | 1.61 | 18.5 | 1 | 1 | 4 | 2 |
Toyota Corolla | 33.9 | 4 | 71.1 | 65 | 4.22 | 1.83 | 19.9 | 1 | 1 | 4 | 1 |
Toyota Corona | 21.5 | 4 | 120.1 | 97 | 3.70 | 2.46 | 20.0 | 1 | 0 | 3 | 1 |
Dodge Challenger | 15.5 | 8 | 318.0 | 150 | 2.76 | 3.52 | 16.9 | 0 | 0 | 3 | 2 |
AMC Javelin | 15.2 | 8 | 304.0 | 150 | 3.15 | 3.44 | 17.3 | 0 | 0 | 3 | 2 |
Camaro Z28 | 13.3 | 8 | 350.0 | 245 | 3.73 | 3.84 | 15.4 | 0 | 0 | 3 | 4 |
Pontiac Firebird | 19.2 | 8 | 400.0 | 175 | 3.08 | 3.85 | 17.1 | 0 | 0 | 3 | 2 |
Fiat X1-9 | 27.3 | 4 | 79.0 | 66 | 4.08 | 1.94 | 18.9 | 1 | 1 | 4 | 1 |
Porsche 914-2 | 26.0 | 4 | 120.3 | 91 | 4.43 | 2.14 | 16.7 | 0 | 1 | 5 | 2 |
Lotus Europa | 30.4 | 4 | 95.1 | 113 | 3.77 | 1.51 | 16.9 | 1 | 1 | 5 | 2 |
Ford Pantera L | 15.8 | 8 | 351.0 | 264 | 4.22 | 3.17 | 14.5 | 0 | 1 | 5 | 4 |
Ferrari Dino | 19.7 | 6 | 145.0 | 175 | 3.62 | 2.77 | 15.5 | 0 | 1 | 5 | 6 |
Maserati Bora | 15.0 | 8 | 301.0 | 335 | 3.54 | 3.57 | 14.6 | 0 | 1 | 5 | 8 |
Volvo 142E | 21.4 | 4 | 121.0 | 109 | 4.11 | 2.78 | 18.6 | 1 | 1 | 4 | 2 |
Spørgsmål
Vi ønsker at undersøge om variationen i brændstoføkonomien mpg
kan forklares med variationen i vægt wt
og motorkraft hp
.
Plottet viser klart en sammenhæng:
Simpel lineær regression
Vi opfatter mpg
som respons \(y\) og hp
som forklarende variabel \(x\). Regressionsmodellen er
\[ y_i = b_1 + b_2 x_i + e_i \]
term | estimate | std.error | statistic | p.value | sigs | lwr | upr |
---|---|---|---|---|---|---|---|
(Intercept) | 30.099 | 1.63 | 18.42 | 0 | * * * | 26.762 | 33.436 |
hp | -0.068 | 0.01 | -6.74 | 0 | * * * | -0.089 | -0.048 |
estimate
: Estimaterne \(\hat b_1\) og \(\hat b_2\) for de ukendte parametre \(b_1\) og \(b_2\).std.error
: Standardfejl \(\sigma(\hat b_1)\) og \(\sigma(\hat b_2)\) på estimaterne.statistic
: estimatet divideret med standardfejlen; en z-score
p.value
: Sandsynligheden for at observere en værdi afstatistic
der er mere ekstrem end den der faktisk er observeret hvis den pågældende parameter er lig \(0\).sigs
: Een * betyder at z-scoren er ekstrem (udenfor intervallet \([-2,2]\)); flere *’er betyder mere ekstrem.lwr / upr
: Man kan omsætte statistic (z-score) til et konfidensinterval. Hvis \(0\) ligger i intervallet, så kunne den pågældende parameter godt være \(0\). Det svarer til, at teststørrelsen ovenfor ligger i intervallet \([-2,2]\).
term | estimate | std.error | statistic | p.value | sigs | lwr | upr |
---|---|---|---|---|---|---|---|
(Intercept) | 30.099 | 1.63 | 18.42 | 0 | * * * | 26.762 | 33.436 |
hp | -0.068 | 0.01 | -6.74 | 0 | * * * | -0.089 | -0.048 |
Ændring af skala
For illustrations skyld, lad os lave mpg
om til km/l (skal blot gange med 0.42):
term | estimate | std.error | statistic | p.value | sigs | lwr | upr |
---|---|---|---|---|---|---|---|
(Intercept) | 12.642 | 0.686 | 18.42 | 0 | * * * | 11.240 | 14.04 |
hp | -0.029 | 0.004 | -6.74 | 0 | * * * | -0.037 | -0.02 |
Vi ser, at estimat og standardfejlen også ændrer sig men statistic gør ikke.
Det er ganske betryggende for det betyder, at den konklusion vi drager ikke afhænger af den enhed vi måler i.
Hvor godt passer modellen - grafisk undersøgelse
Beregn:
predikterede værdier \(\hat y_i = \hat b_1 + \hat b_2 x_i\) og
residualer \(r_i=y_i - \hat y_i\)
To standard plots at lave:
plot \(\hat y_i\) mod \(y_i\). Hvis modellen er “god” bør punkterne ligge omkring enhedslinjen.
plot \(r_i\) mod \(\hat y_i\). Hvis modellen er “god” bør punkterne ligge ustrukturerede; som et skud hagl på en ladeport.
- Hvorvidt modellen passer godt nok, er altid et spørgsmål om hvad modellen skal bruges til.
Plots indikerer, at modellen ikke passer fantastisk godt:
hp
ikke forklarer al variation impg
.plot af observerede værdier mod prædikterede burde ligge i cigar-formet sky; ikke i en banan-formet sky.
Added variable plot
Residualen afspejler den del at variationen i data som modellen (dvs
hp
) ikke kan forklare,Derfor fristende at plotte residualen mod en anden variable, for eksempel
wt
,qsec
,am
Der er en systematik i nogle af disse plots, men er de væsentlige?
Multipel regression
Plots ovenfor viser at brændstoføkonomien mpg
falder når både hp
og wt
stiger (hvilket er at forvente). Dette kan kvantificeres ved en multipel regressionsmodel:
\[ y_i = b_1 + b_2 x_{i1} + b_3 x_{i2} + e_i \]
term | estimate | std.error | statistic | p.value | sigs | lwr | upr |
---|---|---|---|---|---|---|---|
(Intercept) | 27.611 | 8.420 | 3.28 | 0.003 | * * | 10.363 | 44.858 |
hp | -0.018 | 0.015 | -1.19 | 0.244 | -0.049 | 0.013 | |
wt | -4.359 | 0.753 | -5.79 | 0.000 | * * * | -5.901 | -2.817 |
qsec | 0.511 | 0.439 | 1.16 | 0.255 | -0.389 | 1.411 |
Fortolkning
Fortolkningen er:
Når
hp
vokser med een enhed så ændresmpg
med -0.018, hvis “alt andet er lige”.Når
wt
vokser med een enhed så ændresmpg
med -4.359, hvis “alt andet er lige”.Når
qsec
vokser med een enhed så ændresmpg
med 0.511, hvis “alt andet er lige”.
Kolinearitet
- Vægt og hestekræfter følges ad. Man siger, at disse to variable er ko-lineære.
Et klassisk problem med fortolkningen af en multipel regressionsmodel er, at “alt andet” næsten aldrig er lige.
Det fører for vidt her at komme ind på hvordan man tager højde for sådan en kolinearitet.
Hvor godt passer modellen - grafisk undersøgelse
Den multiple regressionsmodel er passer langt bedre på data end den simple lineære regressionsmodel.
Krumning indikerer at modellen ikke passer helt fantastisk godt til data.
- Hvorvidt modellen passer godt nok, er altid et spørgsmål om hvad modellen skal bruges til.
Om kolinearitet og polynomiel regression
speed dist
1 4 2
2 4 10
3 7 4
4 7 22
5 8 16
6 9 10
speed dist
45 23 54
46 24 70
47 24 92
48 24 93
49 24 120
50 25 85
Sammenhæng mellem x og y?
Mulige modeller
\[\begin{align} y &= b_1 + b_2 \times speed + e \\ y &= b_1 + b_2 \times speed + b_3 \times speed^2 + e \\ y &= b_1 + b_3 \times speed^2 + e \\ y &= b_3 \times speed^2 + e \end{align}\]
NB: Alle modeller er linære som funktion af parametrene: Lad \(b=(b_1,b_2,b_3)\). Så er
\[ l(b)=l((b_1,b_2,b_3)) = b_1 + b_2 \times speed + b_3 \times speed^2 \]
en lineær afbildning
term | estimate | std.error | statistic | p.value | sigs | lwr | upr |
---|---|---|---|---|---|---|---|
(Intercept) | -17.58 | 6.758 | -2.60 | 0.012 | * | -31.2 | -3.99 |
speed | 3.93 | 0.416 | 9.46 | 0.000 | * * * | 3.1 | 4.77 |
term | estimate | std.error | statistic | p.value | sigs | lwr | upr |
---|---|---|---|---|---|---|---|
(Intercept) | 2.470 | 14.817 | 0.167 | 0.868 | -27.338 | 32.278 | |
speed | 0.913 | 2.034 | 0.449 | 0.656 | -3.179 | 5.006 | |
I(speed^2) | 0.100 | 0.066 | 1.515 | 0.136 | -0.033 | 0.233 |
term | estimate | std.error | statistic | p.value | sigs | lwr | upr |
---|---|---|---|---|---|---|---|
(Intercept) | 8.860 | 4.086 | 2.17 | 0.035 | * | 0.644 | 17.076 |
I(speed^2) | 0.129 | 0.013 | 9.78 | 0.000 | * * * | 0.102 | 0.155 |
term | estimate | std.error | statistic | p.value | sigs | lwr | upr |
---|---|---|---|---|---|---|---|
I(speed^2) | 0.153 | 0.007 | 21.5 | 0 | * * * | 0.139 | 0.168 |
Hvorfor bruger man ordet regression?
En post om ordet regression
En statistisk model
En statistisk model er et sæt af antagelser omkring den datagenererende proces.
Den DGP giver anledning til
\[ \text{Observation} = \text{sand sammenhæng + støj} \] Men den DGP er ukendt så i praksis arbejder man med \[ \text{Observation} = \text{statistisk model + obs. støj} \]
Anscombes data
Alle har hældning 0.5 og skæring 3. Og samme \(R^2\)!
Datasaurus
Hvilende stofskifte og kropsvægt
Hvilken model?
Vi bruger modelkontrol til at
- Checke at modellen fanger den overordnede trend
- Checke at modellen er rimelig overalt!
- Hvis vi skal teste noget: checke at antagelserne er tilnærmelsesvis opfyldte.
“Man skal tegne før man må regne”
Residualer
Hvornår er en model god? Det er den, når man kan beskrive det man ser OG generaliseres til nye observationer OG fortolkes
The negative and positive errors should cancel out ⇒ Zero overall error Many lines will satisfy this criterion
Residualplot - er antagelserne opfyldte?
Ser modellen ud til at passe?
- Middelværdi ca. 0 overalt
- Ingen systematiske afvigelser
- Check for outliers
- Varianshomogenitet
- (Uafhængighed - kan typisk ikke ses)
Hvordan går det galt?
. . .
Hvordan går det galt?
. . .
\(R^2\)
\(R^2\) er en ofte anvendt metode til at se på hvor godt en model passer til data.
\(R^2\) er den kvadrerede korrelation mellem de observerede og prædikterede værdier
\[R^2 = \frac{\sum_{i=1}^N(\widehat{y_i} - \widehat{\bar{y}})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^N(\widehat{y_i} - \widehat{\bar{y}})^2\sum_{i=1}^N(y_i - \bar{y})^2}}\]
Giver et tal mellem 0 og 1.
- \(R^2\) er et mål for hvor meget af variansen i responsvariablen der forklares af modellen
\(R^2\) siger ikke om modellen er korrekt
\[R^2 = \frac{b_1^2 \Bbb{V}(X)}{b_1^2 \Bbb{V}(X) + \sigma^2}.\]
En forkert model kan have \(R^2\) tæt på 1
\(R^2 = 0.85\)
Siger ikke noget om prædiktionsfejl
\(R^2=0.65\)
Sammenligninger
\(R^2\) kan ikke bruges til at sammenligne modeller med utransformeret \(Y\) med en model med transformerede \(Y\)
Kan bruges til at sige noget om forskellige modeller (med samme kompleksitet) med samme udfald. Men det kan spredningen også.
Opgave - lungekapacitet
Opgave - lungekapacitet
Spillere 1/1 1951 - 7/5 2017 (N=334)
Hvad er hypotesen?
Hvordan burde fordelingen se ud? Og hvorfor?
Hvad er hypotesen?
Hvordan burde fordelingen se ud? Og hvorfor?
Chi-i-anden tests
\[X^2 = \sum_{i=1}^K \frac{(O_i - F_i)^2}{F_i}\]
for \(K\) kategorier. \(O_i\) er de observerede antal i celle \(i\) og \(F_i\) er de forventede antal.
\(F_i\) er procentdelen i hver kategori (under hypotesen).
. . .
Bemærk, at tælleren svarer til residualer. Samme idé som ved mindste kvadraters metode.
Effektstørrelser
Udfald 1 | Udfald 2 | |
---|---|---|
Pop 1 | a | b |
Pop 2 | c | d |
\[p_1 = \frac{a}{a+b}, p_2 = \frac{c}{c+d}\]
Risikodifference
Risiko ratio / relativ risiko
Odds ratio
\(p_1 - p_2\)
\(p_1 / p_2\)
\(\frac{p_1 / (1-p_1)}{p_2 / (1-p_2)}\)
Opgave 1
I et forsøg blev det undersøgt om frugtjuice i sutteflasken ved sengetid, øger risikoen for ætsninger på tænderne.
Ætsning: ja | Ætsning: nej | |
---|---|---|
Frugtjuice | 21 | 205 |
Ingen frugtjuice | 70 | 1325 |
- Beregn et estimat for risikoen for at få ætsninger i de to grupper.
- Udregn risikodifferensen og den relative risiko.
- Test om der er en sammenhæng mellem hvorvidt børnene har fået frugtjuiceog ætsning. Hvad konkluderer du?
Optælling er svært
Magre tabeller
Udfald 1 | Udfald 2 | |
---|---|---|
Pop 1 | a | b |
Pop 2 | c | d |
\[X^2 = \sum_{i=1}^K \frac{(O_i - F_i)^2}{F_i}\]
Hvis \(F_i\) er lille er udregningen ustabil.
Og hvad med med den estimerede effektstørrelse?
Binomialtestet
Simpelt - de forventede gruppefrekvenser er givet ved hypotesen.
Kan udlede fordelingen simpelt vha simulation.
20 møntkast. 6 kroner. Er mønten fair?
\[ \begin{split} X^2 &= \frac{(6 - 10)^2}{10} + \frac{(14 - 10)^2}{10}\\ &= 3.2 \end{split}\]
Opgave 2
Arbejdshypotese: Horoskoper er så unikke, at personer kan identificere deres eget.
Forsøg: N=84 personer præsenteres for 3 horoskoper. Et af dem deres eget.
Nulhypotese: sandsynlighed for det rigtige horoskop er 1/3.
sandsynligvis.dk
Statistiske snakke
https://biostat.ku.dk/cs/Information.pdf
Søren
Matematik, AAU
sorenh@math.aau.dk
Claus
Biostatistik, KU
ekstrom@sund.ku.dk