Handelsgymnasiernes Matematiklærerforening

Årsmøde 2023

Authors

Affiliations

Claus Thorn Ekstrøm

Biostatistik, KU

Søren Højsgaard

Matematik, AAU

Indledning

Program

10-11 Deskriptiv statistik
11-12 Regression og konfidensintervaller
12-13 Frokost
13-14 Multipel regression
14-15 Modelvalidering
15-16 Antalstabeller

Hvad er statistik?

Mønstre.
Hvad ser vi?
Prædiktion.
Hvad forventer vi ved ny observation?
Sammenhænge.
Hvad giver info om hvad?
Kausalitet.
Hvorfor?

Deskriptiv statistik

Eksempel: Højde på gymnasielærere

Eksempel: højde på \(n=30\) danske gymnasielærere på et statistikseminar på Mariagerfjord gymnasium i Hobro i 2019.

h	165	166	167	167	167	168	169	169	170	172	172	174	175	178
k	k	k	k	k	k	k	k	k	k	k	k	k	k	k

h	169	176	178	178	178	178	179	179	179	180	181	181	185	186	189	190
k	m	m	m	m	m	m	m	m	m	m	m	m	m	m	m	m

Bemærk: højderne er sorteret inden for køn. Det er altid en god idé at sortere sine data.

Bemærk: i det følgende vil vi se bort fra køn.

165	166	167	168	169	170	172	174	175	176	178	179	180	181	185	186	189	190
1	1	3	1	3	1	2	1	1	1	5	3	1	2	1	1	1	1

[165,170]	(170,175]	(175,180]	(180,185]	(185,190]
10	4	10	3	3

Man skal tegne før man må regne

Hvor er data? Lokation og spredning

Hvor er data placeret? Lokation.

\[ \bar x = \frac 1 n \sum_i x_i = 175.5 \]

Hvor spredte er data? Variation:

\[ s = \sqrt{\frac 1 {N-1} \sum_i (x_i-\bar x)^2} = 6.95 \]

Alternativer - lokation:

aritmetisk geometrisk  harmonisk     median       mode 
       176        175        175        177        178

Alternativer - variation:

  max   min range   iqr   mad    sd 
190.0 165.0  25.0  10.0   7.4   6.9

Bemærk: Hvis histogram har een top og data er nogenlunde symmetrisk fordelte herom, så er forskellen mellem max og min ca 4 standardafvigelser.

Statistiske grundbegreber

Potentielt vanskelige begreber

Stokastisk variabel
Normalfordeling
Population vs stikprøve
Populationsparametre, estimater og estimatorer
Fordelingen af gennemsnit
Hypotesetest - taler data imod en bestemt formodning
Konfidensinterval - trolige værdier for populationsparameter

Stokastisk variabel

Stokastisk variabel, aleatorisk variabel, tilfældig variabel (aleatorisk=terningspiller)

En funktion der tilskriver værdi til resultatet af et eksperiment. (Antal øjne i kast med terning).
En variabel hvis værdi er ukendt. (Lærer NNs højde)

Betegner ofte stokastisk variabel med store bogstaver.

Når data er observeret så taler man om realiseret værdi af stokastisk variable.

Bemærk: Lærer NNs højde er ukendt for mig (indtil jeg har spurgt) men den er kendt for lærer NN selv.

Lærernes højde når de er ukendte for mig: Stokastiske variable: \(X_1, X_2, \dots, X_{30}\).

Lærernes højde efter jeg har spurgt: Realiserede værdier: \(x_1=165, x_2=166, \dots, x_{30}=190\)

Normalfordeling

Histogram: data kunne være realiserede værdier af uafhængige normalfordelte stokastiske variable \(X_i \sim N(\mu, \sigma^2)\).

\(\bar x\) er estimat for \(\mu\)

\(s\) er estimat for \(\sigma\).

Population og stikprøve

Vi ønsker at udtale os om populationen (af danske gymnasielærere i matematik). Population er nogle gange et underligt begreb.
Sker på baggrund af en repræsentativ stikprøve af data fra populationen. (Udover dette formål er stikprøven ikke særlig interessant)

Populationsparametre og estimater

I populationen (af danske matematiklærere): Middelhøjden er \(\mu\); spredningen er \(\sigma\).
I stikprøven: Gennemsnit \(\bar x\) og stikprøvespredningen \(s\).
Estimater
- \(\bar x\) er estimat for middelhøjden i populationen: \(\hat\mu = \bar x\)
- \(s\) er estimat for spredningen i populationen \(\hat \sigma = s\)
Skriver ofte \(\mu=\mu(X)\) og \(\sigma=\sigma(X)\) for at understrege at disse spredning / middelværdi for stokastisk variabel.
Skriver ofte \(\hat\mu(x)\) og \(\hat\sigma(x)\) eller \(\hat\mu(x_1, \dots x_n)\) og \(\hat\sigma(x_1, \dots, x_n)\) for at understrege at disse størrelser er funktioner af data.

Estimatorer og estimater

Hvis \(X_1,\dots,X_n\) er stokastiske variable, så må funktioner heraf også være stokastiske variable (Hvis \(X_i\)ernes værdi er ukendte så gælder det også \(\bar X\)):

\[ \bar X = \frac 1 n \sum_i X_i \]

Estimator: \(\hat\mu(X) = \bar X = \frac 1 n \sum_i X_i\) er en stokastisk variabel
Estimat: \(\hat\mu(x) = \bar x = \frac 1 n \sum_i x_i\) er en realiseret værdi af \(\hat\mu(X)\) (gennemsnit; et tal, der kan regnes ud).

Standardfejl på estimater

Gentager vores studium (= nyt statistikseminar med 30 tilfældigt udvalgte gymnasielærere) \(M=100\) gange. Gennemsnittet vil variere fra gang til gang. De første gennemsnit er:

174	175	177	177	176	174

Gennemsnittet varierer meget mindre end data.

Den matematiske sammenhæng er simpel: Spredningen på \(\bar X\) (som stokastisk variabel) er:

\[ \sigma(\hat\mu(X)) = \sigma(\bar X) = \sigma / \sqrt{n} \]

Denne estimeres ved \(\hat\sigma(x) / \sqrt{n} = 6.95 / 5.48 = 1.27.\)

Dette afspejles ret præcist i stikprøvespredningen af \(\bar x_1, \dots, \bar x_{100}\):

\[ \hat\sigma(\bar x_1, \dots, \bar x_{100}) = \frac 1{100-1} \sum_{j=1}^{100} (\bar x_j - \bar{\bar{x}})^2 = 1.29 \] hvor \(\bar{\bar{x}}=\frac 1{100} \sum_{j=1}^{100} \bar x_j = 175.34\)

For at opsummere:

\(\hat\sigma(\hat\mu(X)) \approx \hat\sigma(x) / \sqrt{n} = 1.27\) er standardfejlen på estimatet \(\hat\mu\) og
Stikprøvespredningen af \(\hat\sigma(\bar x_1, \dots, \bar x_{100})\) af \(\bar x_1, \dots, \bar x_{100}\) afspejler ret nøjagtigt denne standardfejl.
Sidstnævnte er den praktiske fortolkning af førstnævnte

z-score

En \(z\)–score er defineret som:

\[ z = \hat\mu / \hat\sigma(\hat\mu) \]

\(z\)-scoren er et mål for, hvor mange standardafvigelser gennemsnittet (mere generelt: estimatet) er fra \(0\):

\[\hat\mu - 0 = z \times \hat\sigma(\hat\mu)\]

NB: Den størrelse er uafhængig af hvilken skala data er målt på.

Minder om generel regel: Hvis \(X\sim N(\mu, \sigma^2)\) så er \[Z=\frac{X-\mu}{\sigma} \sim N(0,1)\]

NB: \(Z\) har ingen enheder.

Middelhøjden af danske mænd/kvinder er \(181.4\) cm/ \(167.2\) cm i 2023 og dermed er middelhøjden af befolkningen \(174.3\) cm. Måle hvor mange standardafvigelser gennemsnittet er fra denne højde.

\[ z = (\hat\mu - \mu_0) / \hat\sigma(\hat\mu) = 0.95 \]

Hypotesetest

Hypotese (formodning): Den sande middelværdi i populationen af gymnasielærere er \(\mu_0=174.3\) cm.

Den hypotese kan man lave et statistisk test af.

Logikken er:

Man bruger ikke data til at “bevise” at man har ret (at hypotesen er rigtig)
Man bruger data til at “bevise” at man tager fejl (at hypotesen er forkert)

Analogi: Data er landskab. Hypotese er et kort, dvs model af landskabet. Hvis kort ikke passer med landskabet, så er det landskabet der er rigtigt.

Vi har \(\bar x = 175.5\) og \(\mu_0=174.3\).

Taler data imod hypotesen?
Er \(|\bar x - \mu_0|=1.2\) så stor at det er usandsynligt at observere gennemsnittet \(\bar x = 175.5\) hvis populationsmiddelværdien er \(\mu_0=174.3\)?
z-score: \(z=\frac{\bar x - 174.3}{\sigma/\sqrt{n}}=0.95\) så gennemsnittet er ca \(1\) standardafvigelse fra \(\mu_0\)
Er \(z\approx 1\) det et stort tal?

Hypotesetest og beslutning

Hvis den sande middelværdi er \(\mu = \mu_0 = 174.3\) så er den stokastiske variabel

\[ Z=\frac{\bar X - 174.3}{\sigma/\sqrt{n}}\sim N(0,1) \]

I en \(N(0,1)\)-fordeling er der 95% sandsynlighed for en observation i intervallet \([-1.96; 1.96]\); dvs i intervallet \([-2;2]\).

Vi siger at vi forkaster hypotesen på niveau 5% hvis \(z\) ligger udenfor intervallet \([-1.96; 1.96]\); og ellers accepterer vi hypotesen.

Med \(z\approx 1\) accepteres hypotesen om at populationsmiddelværdien \(\mu\) blandt danske matematiklærere er \(174.3\).

Hypotesetest og p-værdi

Vi har observeret \(z=0.95\), og numerisk store værdier af \(z\) får os til at tvivle på hypotesen at \(\mu=\mu_0 = 174.3\)

Hvis hypotesen er sand så er \(Z=\frac{\bar X - 174.3}{\sigma/\sqrt{n}}\sim N(0,1)\).

Vi spørger nu: Hvad er sandsynligheden for at observere værdier af \(Z\) der er numerisk større en den numeriske værdi af \(z\)?

Hvis sandsynligheden er lille så må \(z\) være en “usandsynlig værdi” og det får os til at betvivle /forkaste hypotesen.
Hvis sandsynligheden er stor så må \(z\) være en “plausibel værdi” og det får os til at tro på / acceptere hypotesen.

Denne sandsynlighed kaldes for \(p\)-værdien.

Vi har \(p = 0.34\)

Man siger, at \(p\)-værdien er mål for evidens mod hypotesen.

Ofte forkaster man hypotesen hvis \(p\)-værdien er mindre end 5%.

I begge tilfælde

Bemærk: Vi har ikke bevist at \(\mu\) er lig \(174.3\); vi har påvist at data ikke taler imod hypotesen.

Hvad med hypotesen at middelhøjden af danske matematiklærere er \(181.4\) (middelhøjden af danske mænd) eller \(167.2\) (middelhøjden af danske kvinder)?

Konfidensinterval

Vi kan teste hypotese \(\mu=\mu_0\) for forskellige værdier af \(\mu_0\). I hvert tilfælde handler det om at afgøre om tilhørende z-score ligger indenfor eller udenfor \([-2;2]\).

Interval af accepterede værdier: \([173; 178]\)

Dette interval \([173; 178]\) er et 95% konfidensinterval for middelværdien \(\mu\)

\[ I = [\bar x - 1.96 \sigma/\sqrt{n}; \bar x + 1.96 \sigma/\sqrt{n}] \]

Bemærk: Det giver ikke mening at tale om at der er 95% sandsynlighed for at \(\mu\) ligger i intervallet \([173; 178]\).

Enten ligger \(\mu\) i intervallet eller også gør \(\mu\) det ikke.

Intervallet er de værdier af \(\mu_0\) der “passer med data”.

Hvis vi gentager studiet mange gange kan vi for hver gentagelse i beregne et 95% konfidensinterval:

Ca. 95% af disse konfidensintervaller vil indeholde den sande middelværdiparameter \(\mu\), men vi ved blot ikke

Hvilke af disse intervaller der indeholder \(\mu\) og
Hvor i disse intervaller \(\mu\) ligger.

Data

Et klassisk (og ret gammelt) datasæt: Egenskaber ved 32 forskellige biler. En beskrivelse af variablene kan findes HER.

	mpg	cyl	disp	hp	drat	wt	qsec	vs	am	gear	carb
Mazda RX4	21.0	6	160	110	3.90	2.62	16.5	0	1	4	4
Mazda RX4 Wag	21.0	6	160	110	3.90	2.88	17.0	0	1	4	4
Datsun 710	22.8	4	108	93	3.85	2.32	18.6	1	1	4	1
Hornet 4 Drive	21.4	6	258	110	3.08	3.21	19.4	1	0	3	1
Hornet Sportabout	18.7	8	360	175	3.15	3.44	17.0	0	0	3	2
Valiant	18.1	6	225	105	2.76	3.46	20.2	1	0	3	1
Duster 360	14.3	8	360	245	3.21	3.57	15.8	0	0	3	4
Merc 240D	24.4	4	147	62	3.69	3.19	20.0	1	0	4	2
Merc 230	22.8	4	141	95	3.92	3.15	22.9	1	0	4	2
Merc 280	19.2	6	168	123	3.92	3.44	18.3	1	0	4	4
Merc 280C	17.8	6	168	123	3.92	3.44	18.9	1	0	4	4
Merc 450SE	16.4	8	276	180	3.07	4.07	17.4	0	0	3	3
Merc 450SL	17.3	8	276	180	3.07	3.73	17.6	0	0	3	3
Merc 450SLC	15.2	8	276	180	3.07	3.78	18.0	0	0	3	3
Cadillac Fleetwood	10.4	8	472	205	2.93	5.25	18.0	0	0	3	4
Lincoln Continental	10.4	8	460	215	3.00	5.42	17.8	0	0	3	4

	mpg	cyl	disp	hp	drat	wt	qsec	vs	am	gear	carb
Chrysler Imperial	14.7	8	440.0	230	3.23	5.34	17.4	0	0	3	4
Fiat 128	32.4	4	78.7	66	4.08	2.20	19.5	1	1	4	1
Honda Civic	30.4	4	75.7	52	4.93	1.61	18.5	1	1	4	2
Toyota Corolla	33.9	4	71.1	65	4.22	1.83	19.9	1	1	4	1
Toyota Corona	21.5	4	120.1	97	3.70	2.46	20.0	1	0	3	1
Dodge Challenger	15.5	8	318.0	150	2.76	3.52	16.9	0	0	3	2
AMC Javelin	15.2	8	304.0	150	3.15	3.44	17.3	0	0	3	2
Camaro Z28	13.3	8	350.0	245	3.73	3.84	15.4	0	0	3	4
Pontiac Firebird	19.2	8	400.0	175	3.08	3.85	17.1	0	0	3	2
Fiat X1-9	27.3	4	79.0	66	4.08	1.94	18.9	1	1	4	1
Porsche 914-2	26.0	4	120.3	91	4.43	2.14	16.7	0	1	5	2
Lotus Europa	30.4	4	95.1	113	3.77	1.51	16.9	1	1	5	2
Ford Pantera L	15.8	8	351.0	264	4.22	3.17	14.5	0	1	5	4
Ferrari Dino	19.7	6	145.0	175	3.62	2.77	15.5	0	1	5	6
Maserati Bora	15.0	8	301.0	335	3.54	3.57	14.6	0	1	5	8
Volvo 142E	21.4	4	121.0	109	4.11	2.78	18.6	1	1	4	2

Spørgsmål

Vi ønsker at undersøge om variationen i brændstoføkonomien mpg kan forklares med variationen i vægt wt og motorkraft hp.

Plottet viser klart en sammenhæng:

Simpel lineær regression

Vi opfatter mpg som respons \(y\) og hp som forklarende variabel \(x\). Regressionsmodellen er

\[ y_i = b_1 + b_2 x_i + e_i \]

term	estimate	std.error	statistic	p.value	sigs	lwr	upr
(Intercept)	30.099	1.63	18.42	0	* * *	26.762	33.436
hp	-0.068	0.01	-6.74	0	* * *	-0.089	-0.048

estimate: Estimaterne \(\hat b_1\) og \(\hat b_2\) for de ukendte parametre \(b_1\) og \(b_2\).
std.error: Standardfejl \(\sigma(\hat b_1)\) og \(\sigma(\hat b_2)\) på estimaterne.
statistic: estimatet divideret med standardfejlen; en z-score

p.value: Sandsynligheden for at observere en værdi af statistic der er mere ekstrem end den der faktisk er observeret hvis den pågældende parameter er lig \(0\).
sigs: Een * betyder at z-scoren er ekstrem (udenfor intervallet \([-2,2]\)); flere *’er betyder mere ekstrem.
lwr / upr: Man kan omsætte statistic (z-score) til et konfidensinterval. Hvis \(0\) ligger i intervallet, så kunne den pågældende parameter godt være \(0\). Det svarer til, at teststørrelsen ovenfor ligger i intervallet \([-2,2]\).

term	estimate	std.error	statistic	p.value	sigs	lwr	upr
(Intercept)	30.099	1.63	18.42	0	* * *	26.762	33.436
hp	-0.068	0.01	-6.74	0	* * *	-0.089	-0.048

Ændring af skala

For illustrations skyld, lad os lave mpg om til km/l (skal blot gange med 0.42):

term	estimate	std.error	statistic	p.value	sigs	lwr	upr
(Intercept)	12.642	0.686	18.42	0	* * *	11.240	14.04
hp	-0.029	0.004	-6.74	0	* * *	-0.037	-0.02

Vi ser, at estimat og standardfejlen også ændrer sig men statistic gør ikke.
Det er ganske betryggende for det betyder, at den konklusion vi drager ikke afhænger af den enhed vi måler i.

Hvor godt passer modellen - grafisk undersøgelse

Beregn:

predikterede værdier \(\hat y_i = \hat b_1 + \hat b_2 x_i\) og
residualer \(r_i=y_i - \hat y_i\)

To standard plots at lave:

plot \(\hat y_i\) mod \(y_i\). Hvis modellen er “god” bør punkterne ligge omkring enhedslinjen.
plot \(r_i\) mod \(\hat y_i\). Hvis modellen er “god” bør punkterne ligge ustrukturerede; som et skud hagl på en ladeport.

Hvorvidt modellen passer godt nok, er altid et spørgsmål om hvad modellen skal bruges til.

Plots indikerer, at modellen ikke passer fantastisk godt:

hp ikke forklarer al variation i mpg.
plot af observerede værdier mod prædikterede burde ligge i cigar-formet sky; ikke i en banan-formet sky.

Added variable plot

Residualen afspejler den del at variationen i data som modellen (dvs hp) ikke kan forklare,
Derfor fristende at plotte residualen mod en anden variable, for eksempel wt, qsec, am
Der er en systematik i nogle af disse plots, men er de væsentlige?

Multipel regression

Plots ovenfor viser at brændstoføkonomien mpg falder når både hp og wt stiger (hvilket er at forvente). Dette kan kvantificeres ved en multipel regressionsmodel:

\[ y_i = b_1 + b_2 x_{i1} + b_3 x_{i2} + e_i \]

term	estimate	std.error	statistic	p.value	sigs	lwr	upr
(Intercept)	27.611	8.420	3.28	0.003	* *	10.363	44.858
hp	-0.018	0.015	-1.19	0.244		-0.049	0.013
wt	-4.359	0.753	-5.79	0.000	* * *	-5.901	-2.817
qsec	0.511	0.439	1.16	0.255		-0.389	1.411

Fortolkning

Fortolkningen er:

Når hp vokser med een enhed så ændres mpg med -0.018, hvis “alt andet er lige”.
Når wt vokser med een enhed så ændres mpg med -4.359, hvis “alt andet er lige”.
Når qsec vokser med een enhed så ændres mpg med 0.511, hvis “alt andet er lige”.

Kolinearitet

Vægt og hestekræfter følges ad. Man siger, at disse to variable er ko-lineære.

Et klassisk problem med fortolkningen af en multipel regressionsmodel er, at “alt andet” næsten aldrig er lige.
Det fører for vidt her at komme ind på hvordan man tager højde for sådan en kolinearitet.

Hvor godt passer modellen - grafisk undersøgelse

Den multiple regressionsmodel er passer langt bedre på data end den simple lineære regressionsmodel.
Krumning indikerer at modellen ikke passer helt fantastisk godt til data.

Hvorvidt modellen passer godt nok, er altid et spørgsmål om hvad modellen skal bruges til.

Om kolinearitet og polynomiel regression

  speed dist
1     4    2
2     4   10
3     7    4
4     7   22
5     8   16
6     9   10

   speed dist
45    23   54
46    24   70
47    24   92
48    24   93
49    24  120
50    25   85

Sammenhæng mellem x og y?

Mulige modeller

\[\begin{align} y &= b_1 + b_2 \times speed + e \\ y &= b_1 + b_2 \times speed + b_3 \times speed^2 + e \\ y &= b_1 + b_3 \times speed^2 + e \\ y &= b_3 \times speed^2 + e \end{align}\]

NB: Alle modeller er linære som funktion af parametrene: Lad \(b=(b_1,b_2,b_3)\). Så er

\[ l(b)=l((b_1,b_2,b_3)) = b_1 + b_2 \times speed + b_3 \times speed^2 \]

en lineær afbildning

term	estimate	std.error	statistic	p.value	sigs	lwr	upr
(Intercept)	-17.58	6.758	-2.60	0.012	*	-31.2	-3.99
speed	3.93	0.416	9.46	0.000	* * *	3.1	4.77

term	estimate	std.error	statistic	p.value	lwr	upr
(Intercept)	2.470	14.817	0.167	0.868	-27.338	32.278
speed	0.913	2.034	0.449	0.656	-3.179	5.006
I(speed^2)	0.100	0.066	1.515	0.136	-0.033	0.233

term	estimate	std.error	statistic	p.value	sigs	lwr	upr
(Intercept)	8.860	4.086	2.17	0.035	*	0.644	17.076
I(speed^2)	0.129	0.013	9.78	0.000	* * *	0.102	0.155

term	estimate	std.error	statistic	p.value	sigs	lwr	upr
I(speed^2)	0.153	0.007	21.5	0	* * *	0.139	0.168

Hvorfor bruger man ordet regression?

En post om ordet regression

En statistisk model

En statistisk model er et sæt af antagelser omkring den datagenererende proces.

Den DGP giver anledning til

\[ \text{Observation} = \text{sand sammenhæng + støj} \] Men den DGP er ukendt så i praksis arbejder man med \[ \text{Observation} = \text{statistisk model + obs. støj} \]

Anscombes data

Alle har hældning 0.5 og skæring 3. Og samme \(R^2\)!

Datasaurus

Hvilende stofskifte og kropsvægt

Hvilken model?

Vi bruger modelkontrol til at

Checke at modellen fanger den overordnede trend
Checke at modellen er rimelig overalt!
Hvis vi skal teste noget: checke at antagelserne er tilnærmelsesvis opfyldte.

“Man skal tegne før man må regne”

Residualer

Hvornår er en model god? Det er den, når man kan beskrive det man ser OG generaliseres til nye observationer OG fortolkes

The negative and positive errors should cancel out ⇒ Zero overall error Many lines will satisfy this criterion

Residualplot - er antagelserne opfyldte?

Ser modellen ud til at passe?

Middelværdi ca. 0 overalt
Ingen systematiske afvigelser
Check for outliers
Varianshomogenitet
(Uafhængighed - kan typisk ikke ses)

Hvordan går det galt?

. . .

Hvordan går det galt?

. . .

\(R^2\)

\(R^2\) er en ofte anvendt metode til at se på hvor godt en model passer til data.
\(R^2\) er den kvadrerede korrelation mellem de observerede og prædikterede værdier

\[R^2 = \frac{\sum_{i=1}^N(\widehat{y_i} - \widehat{\bar{y}})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^N(\widehat{y_i} - \widehat{\bar{y}})^2\sum_{i=1}^N(y_i - \bar{y})^2}}\]

Giver et tal mellem 0 og 1.

\(R^2\) er et mål for hvor meget af variansen i responsvariablen der forklares af modellen

\(R^2\) siger ikke om modellen er korrekt

\[R^2 = \frac{b_1^2 \Bbb{V}(X)}{b_1^2 \Bbb{V}(X) + \sigma^2}.\]

En forkert model kan have \(R^2\) tæt på 1

\(R^2 = 0.85\)

Siger ikke noget om prædiktionsfejl

\(R^2=0.65\)

Sammenligninger

\(R^2\) kan ikke bruges til at sammenligne modeller med utransformeret \(Y\) med en model med transformerede \(Y\)

Kan bruges til at sige noget om forskellige modeller (med samme kompleksitet) med samme udfald. Men det kan spredningen også.

Opgave - lungekapacitet

Spillere 1/1 1951 - 7/5 2017 (N=334)

Hvad er hypotesen?

Hvordan burde fordelingen se ud? Og hvorfor?

Hvad er hypotesen?

Hvordan burde fordelingen se ud? Og hvorfor?

Chi-i-anden tests

\[X^2 = \sum_{i=1}^K \frac{(O_i - F_i)^2}{F_i}\]

for \(K\) kategorier. \(O_i\) er de observerede antal i celle \(i\) og \(F_i\) er de forventede antal.

\(F_i\) er procentdelen i hver kategori (under hypotesen).

. . .

Bemærk, at tælleren svarer til residualer. Samme idé som ved mindste kvadraters metode.

Effektstørrelser

	Udfald 1	Udfald 2
Pop 1	a	b
Pop 2	c	d

\[p_1 = \frac{a}{a+b}, p_2 = \frac{c}{c+d}\]

Risikodifference
Risiko ratio / relativ risiko
Odds ratio

\(p_1 - p_2\)

\(p_1 / p_2\)

\(\frac{p_1 / (1-p_1)}{p_2 / (1-p_2)}\)

Opgave 1

I et forsøg blev det undersøgt om frugtjuice i sutteflasken ved sengetid, øger risikoen for ætsninger på tænderne.

	Ætsning: ja	Ætsning: nej
Frugtjuice	21	205
Ingen frugtjuice	70	1325

Beregn et estimat for risikoen for at få ætsninger i de to grupper.
Udregn risikodifferensen og den relative risiko.
Test om der er en sammenhæng mellem hvorvidt børnene har fået frugtjuiceog ætsning. Hvad konkluderer du?

Optælling er svært

Magre tabeller

	Udfald 1	Udfald 2
Pop 1	a	b
Pop 2	c	d

\[X^2 = \sum_{i=1}^K \frac{(O_i - F_i)^2}{F_i}\]

Hvis \(F_i\) er lille er udregningen ustabil.

Og hvad med med den estimerede effektstørrelse?

Binomialtestet

Simpelt - de forventede gruppefrekvenser er givet ved hypotesen.

Kan udlede fordelingen simpelt vha simulation.

20 møntkast. 6 kroner. Er mønten fair?

\[ \begin{split} X^2 &= \frac{(6 - 10)^2}{10} + \frac{(14 - 10)^2}{10}\\ &= 3.2 \end{split}\]

Opgave 2

Arbejdshypotese: Horoskoper er så unikke, at personer kan identificere deres eget.

Forsøg: N=84 personer præsenteres for 3 horoskoper. Et af dem deres eget.

Nulhypotese: sandsynlighed for det rigtige horoskop er 1/3.

sandsynligvis.dk

Statistiske snakke

https://biostat.ku.dk/cs/Information.pdf

Søren

Matematik, AAU

sorenh@math.aau.dk

Claus

Biostatistik, KU

ekstrom@sund.ku.dk

h	169	176	178	178	178	178	179	179	179	180	181	181	185	186	189	190
k	m	m	m	m	m	m	m	m	m	m	m	m	m	m	m	m

h	169	176	178	178	178	178	179	179	179	180	181	181	185	186	189	190
k	m	m	m	m	m	m	m	m	m	m	m	m	m	m	m	m

h	169	176	178	178	178	178	179	179	179	180	181	181	185	186	189	190
k	m	m	m	m	m	m	m	m	m	m	m	m	m	m	m	m