Undervisningsgang 1

Onsdag den 29. april 2020. Kl. 17.15-20.00

Zoom link: https://ucph-ku.zoom.us/j/69516885773?pwd=zOlIGd2cmQskaEpazAKERWV9bAQQUecO
Inden undervisningen:
- Installer R og R studio. Følg instruktionerne om at installere fra hjemmesiderne eller læs i Appendiks A.
  
  Desuden bør følgende pakker installeres: tidyverse, rmarkdown, isdals og mlbench. Det kan man gøre ved at køre følgende kommandoer i R
```
install.packages("tidyverse")
install.packages("isdals")
install.packages("mlbench")
install.packages("rmarkdown")
```
- Læs kapitel 1-3 og Appendiks A fra lærebogen. Bemærk, at Appendiks A også giver en introduktion til R og giver instrukser omkring installationen af R og R Studio.
- Som et alternativ til at læse sig til en intro til R i appendiks A kan man følge kurset “Introduction to R” på DataCamp. Husk at logge ind på DataCamp først gennem den invitation, du har fået i forbindelse med kursusstart. Dette kursus giver en oversigt over at bruge R.
  
  Desuden kan man følge “Data Manipulation with R” også på DataCamp.
  
  Bemærk, at det vigtigste er ikke at nå igennem alle lektioner i alle de ovennævnte kurser. Det vigtigste er, at man er nogenlunde fortrolig med at lave nogle simple ting i R. Resten tager vi til øvelserne.
Slides til dag 1 findes her. Desuden vil vi til øvelserne bruge rmarkdown. Der findes en oversigt til rmarkdown her, men det taler vi om, når vi mødes. Her er en kopi af den R-kode jeg kørte til øvelserne.
Øvelser: Øvelserne kan tages lidt i den rækkefølge, som man ønsker det, og hvad man føler sig fortrolig med. Øvelsesnumrene henviser til øvelserne i bogen (kapitel + opgavenummer). Løsningskommentarer til R-delen af opgaverne kan ses her

Fra appendiks A:
- A.3 Generel opgave om at arbejde i R
- A.4 Datasættet til morbarn kan hentes ved hjælp af kommandoen
  load(url("http://biostatistics.dk/puff/data/morbarn.rda")). Dette giver en data.frame med navnet morbarn. Løs resten af opgave A.4 fra noterne (det vil sige spørgsmål A-D).
Fra kapitel 2:
- 2.7 (dette er en snakkeopgave)
- 2.1 Her skal du starte med at lave en vektor med de 24 observationer. Evt. kan du smugkigge på opgave 2.4.
- 2.2
- 2.3
Endelig:
- Lav din egen store tabel 1 ud fra morbarn-datasættet indlæst ovenfor.

Undervisningsgang 2

Torsdag den 7. maj 2020. Kl. 17.15-20.00

Zoom link: https://ucph-ku.zoom.us/j/68362701755
Inden undervisningen:
- Læs kapitel 3-5 fra noterne.
- Følg kurset "Correlation and Regression fra DataCamp. Det er primært afsnit 3-5, der er de vigtigt. Bemærk, at kurset bruger en lidt anden type grafik til visualisering i del 1 end vi gør, så brug ikke så meget krudt på R-delen af denne.
- Brug 10 minutter på at skimme oversigten til rmarkdown så du kan fortsætte med at bruge det fremadrettet.
Slides kan findes her
Øvelser: Øvelserne kan tages lidt i den rækkefølge, som man ønsker det, og hvad man føler sig fortrolig med.
1. Gennemsnitshøjden for danske mænd kan antages at være normalfordelt med middelværdi 179.1 cm og spredningen 6.6 cm.
  1. Hvad er sandsynligheden for at en mand er højere end 185 cm?
  2. Hvad er sandsynligheden for at en mand er lavere end 171 cm?
  3. Hvad er sandsynligheden for at en mand er mellem 175 og 185 cm?
  4. Hvad er 2.5 percentilen? Og 97.5% percentilen?
2. Figur 3.4 påstår, at ca. 68% af sandsynlighedsmassen for en normalfordelt variabel ligger indenfor \(\pm1\) spredning, ca. 95% ligger indenfor \(\pm2\) spredninger og ca. 99.7% ligger indenfor \(\pm3\) spredninger. Vi viste i teksten, at de ca. 95% passede for \(\pm2\) spredninger. Vis på tilsvarende måde, at de andre to egenskaber også passer.
3. Hvis en artikel afrapporterer en \(p\)-værdi som \(p=0.031\) for en bestemt analyse, hvor man ønsker at undersøge, om det gennemsnitlige niveau for to grupper er ens, så betyder det (under forudsætning af at forfatteren benytter et signifikansniveau på 0.01), at
  - man vælger at forkaste nulhypotesen, det vil sige, at man ikke kan afvise, at gruppernes gennemsnit er ens.
  - man vælger at forkaste nulhypotesen, det vil sige, at man afviser, at gruppernes gennemsnit er ens.
  - forfatteren har lavet en fejl. Man skal ikke teste med et signifikansniveau på 0.01.
  - man vælger ikke at forkaste nulhypotesen, det vil sige, at man ikke kan afvise, at gruppernes gennemsnit er ens.
  - man vælger ikke at forkaste nulhypotesen, det vil sige, at man afviser, at gruppernes gennemsnit er ens.
4. I denne opgave skal vi undersøge sammenhængen mellem lungekapacitet, FEV, (forced expiratory volume) og alder for børn. Datasættet findes i pakken stat4med og hedder fev. Data kan indlæses ved at køre
```
library("stat4med")
data(fev)
```
  hvilket giver adgang til et datasæt kaldet fev. Hvis du ikke kan få stat4med til at installere, så kan datasættet hentes direkte fra nettet ved hjælp af ordren
```
fev <- read.csv(url("http://biostatistics.dk/puff/data/fev.csv"), header=TRUE)
```
  1. Få et overblik over data (brug teknikkerne fra sidste gang).
  2. Lav et plot af FEV overfor Age.
  3. Lav en lineær regressions af FEV overfor Age ved hjælp af funktionen lm().
  4. Hvilke tal indeholder kolonnen Std.Error, og hvordan fortolkes de?
  5. Brug kommandoen confint() på resultatet af lm() til at få beregnet et 95% konfidensintervaller for de to parametre.
  6. Fortolk betydningen af de to konfidensintervaller i ord. Hvad er et konfidensinterval, og hvordan skal de to konfidensintervaller forstås inden for opgavens kontekst?
  7. Brug summary() på modellen og se på kolonnen Pr(>|t|), som indeholder to p-værdier – én for hver estimeret parameter. En p-værdi er resultatet af et hypotesetest og hører derfor altid sammen med en nulhypotese. Hvad er det for to nulhypoteser, som RStudio automatisk har testet for os i outputtet?
  8. Forklar betydningen og relevansen af de to nulhypoteser inden for opgavens kontekst ved brug af ord.
  9. Hvordan forholder du dig til de to nulhypoteser, når du ser de to p-værdier?
  10. Skriv en samlet, kort og præcis konklusion på din statistiske analyse ved at inddrage estimaterne, konfidensintervallerne, p-værdierne og dine konklusioner. Denne konklusion vil svare til, hvad man skriver i resultatafsnittet i en videnskabelig artikel. Din konklusion skal formuleres, så andre medicinere og den almindelige befolkning kan forstå de fundne resultater uden at have et detaljeret kendskab til datasættet.
5. I denne opgave vil vi gerne beskrive niveauet af hormonet AMH (højt niveau af dette afspejler mange umodne follikler i æggestokkene, og dermed høj fertilitet) og dets afhængighed af kvinders alder.
  
  Data ligger i datasættet amhmini, der kan hentes via load(url("http://biostatistics.dk/puff/data/amhmini.rda")). Datasættet indeholder to variable: alder (målt i år) og amh (målt i pmol/l).
  
  Analyser data.

Undervisningsgang 3

Tirsdag den 12. maj 2020. Kl. 17.15-20.00

Inden undervisningen:
- Læs resten af kapitel 4-5 fra noterne.
- Følg de første 3 kapitel af kurset “Multiple and Logistic Regression in R” fra DataCamp.
Slides Slides til dag 3 ligger her. Og en kopi af den R-kode, der blev kørt til øvelserne.
Øvelser:
1. I denne opgave skal vi undersøge sammenhængen mellem lungekapacitet, FEV, (forced expiratory volume) og rygning. Datasættet findes i biblioteket isdals og hedder fev. Data kan indlæses ved at køre
```
library("stat4med")
data(fev)
```
  hvorefter datasættet fev er tilgængeligt.
  1. Lav en analyse, hvor FEV afhænger af, hvorvidt børnene ryger. Giv en fortolkning af estimaterne fra modellen, og formuler din konklusion i ord. Stemmer resultatet overens med hvad du ville forvente?
  2. Tilføj variablen Age til modellen fra foregående spørgsmål og få R til at estimere parametrene. Hvordan ændrer parametrene sig i forhold til før og hvorfor?
  3. Opskriv udtrykket for regressionsmodellen med de estimerede parametre. Hvilken fortolkning har de tre parametre?
  4. Brug udtrykket for den estimerede model til at prædiktere lungekapaciteten for følgende personer, og tænk over resultaterne i forhold til den opstillede model:
    - En 12-årig, der ikke ryger
    - En 12-årig, der ryger
    - Forskellen i liter mellem en 13-årig, der ryger og en 15-årig, der ikke ryger
  5. Har rygning betydning for lungekapaciteten?
  6. Tilføj nu også interaktionen mellem sex og age til modellen, og få R til at estimere parametrene. Opskriv udtrykket for regressionsmodellen med de fire estimerede parametre.
  7. Hvad beskriver parameteren for interaktionsleddet? Er der signifikant interaktion mellem alder og rygning? Forklar, hvad det betyder for fortolkningen af modellen, når interaktionen er signifikant forskellige fra nul. Forklar også, hvad det betyder, hvis den ikke er signifikant forskellig fra nul.
  8. Brug udtrykket for den estimerede model med vekselvirkning til at prædiktere lungekapaciteten for følgende personer:
    - En 12-årig dreng, der ikke ryger
    - En 12-årig pige, der ryger
    - Forskellen i liter mellem en 13-årig, der ryger og en 15-årig, der ikke ryger.
  9. Sammenlign disse resultater med de tilsvarende beregninger for modellen uden interaktionsleddet. Hvordan forklarer du forskellen? Hvilke af de to modeller vil du bruge prædiktionerne fra i praksis?
2. I denne opgave vil vi gerne beskrive niveauet af hormonet AMH (højt niveau af dette hormon afspejler mange umodne follikler i æggestokkene, og dermed høj fertilitet). Den primære hypotese er at se på afhængigheden af alder, samt effekten af, hvorvidt kvinden indtager P-piller.
  
  Datasættet amh, der kan hentes via load(url("http://biostatistics.dk/puff/data/amh.rda")). Datasættet indeholder fem variable: alder (målt i år), amh (målt i pmol/l), ppiller (tager kvinden p-piller, 0=nej, 1=ja), rygning (ryger kvinden, 0=nej, 1=ja), og bmi i tre grupper (undervægtige, normalvægtige og overvægtige).
  
  Analyser data.

Undervisningsgang 4

Onsdag den 20. maj 2020. Kl. 17.15-20.00

Zoom link
Inden undervisningen:
- Der er ikke noget at læse, da analyse af andele (proportioner eller brøkdele) er et specialtilfælde af regressionsanalyse. Se bare videoerne nedenfor.
- Der er ikke nogle DataCamp-kurser, der passer fint på emnerne til denne uge. I stedet bør I se følgende 4 videoer (ca. 10 minutter hver):
  
  Test for en enkelt categorisk stikprøve
  
  Introduktion til risiko, relativ risiko, og odds ratio. For en grundigere gennemgang “i hånden” uden R kan man se denne video.
  
  \(\chi^2\)-tests i R
  
  Desuden er det også værd at læse følgende korte introduktion til analyse an kontingenstabeller i R
Slides Kan hentes her. Med kopi af den R-kode, der blev kørt til øvelserne.
Øvelser:
1. På en hospitalsafdeling vil man gerne forbedre ventetiden, og man lavede derfor en undersøgelse for at belyse, hvor mange patienter, der skulle måtte vente mere end 3 uger på at få tid til behandlingen. Ud af 80 adspurgte var der 50 patienter, der måtte vente længere end 3 uger.
  1. Udregn andelen af patienter i stikprøven, der skal vente længere end 3 uger på at få deres behandling. Andelen i stikprøven estimerer risikoen i poplationen.
  2. Udregn et 95% konfidensinterval for risikoen for at skulle vente længere end 3 uger.
  3. Det påstås, at det kun er 50% af patienterne, der skal vente længere end 3 uger. Brug resultatet fra forrige spørgsmål til at vurdere, om du er enig eller uenig i den påstand?
  4. Lav et test for risikoen med nulhypotesen, at den er lig med 65%. Hvad er konklusionen? [Hint: se på argumenterne til prop.test()]
2. I et forsøg blev det undersøgt om gravide kvinders alder påvirker risikoen for spontan abort. Efter at der (fx ved ultralyd) er påvist et levende foster er prognosen god, og nedenstående \(2 \times 2\)-optællingstabel viser resultatet fra en undersøgelse:
  
  Spontan abort: ja Spontan abort: nej
  
  Mødre over 40 år 21 255
  
  Mødre under 30 år 70 3825
  
  Besvar følgende spørgsmål:
  1. Beregn et estimat for risikoen for at få spontan abort blandt gruppen af yngre mødre (<30 år). Beregn et tilsvarende estimat blandt gruppen af mødre, der var over 40 år.
  2. Beregn risikodifferensen og den relative risiko (risikoratioen) mellem de to aldersgrupper for at kunne sammenligne dem.
  3. Lav et \(\chi^2\)-test for, om der er en sammenhæng mellem mødrenes aldre og om man efterfølgende ser spontane aborter. Hvad konkluderer du?
  4. Beregn odds-ratioen for spontan abort for mødre over 40 år i forhold til mødre under 30 år.
  5. Brug kommandoen fisher.test() til at få R til at udregne odds-ratioen og det tilhørende 95% konfidensinterval. Hvad konkluderer du ud fra konfidensintervallet? Sammenlign med konklusionen i spørgsmål C.
3. Man er interesseret i at undersøge, om der er samme fordeling af brugen af rehabilitering for hjertepatienter i de fem danske regioner.
  
  En del af data om typen af rehabilitering fremgår af denne \(5 \times 3\)-optællingstabel. Bemærk, at i dette tilfælde har den afhængige variabel (regioner) 5 kategorier, mens den afhængige variabel er kategorisk med 3 kategorier.
  
  Region Fuld/delvis Begrænset Ikke deltaget
  
  Hovedstaden 547 395 251
  
  Midtjylland 458 304 212
  
  Syddanmark 552 261 165
  
  Nordjylland 236 117 80
  
  Sjælland 365 301 127
  
  Besvar følgende spørgsmål:
  1. Undersøg, om der er samme fordeling i brugen af rehabilitering mellem de fem regioner.
  2. Hvordan vil du bedømme hvilken region, som har størst brug af rehabilitering?
4. Vi har en hængeparti med opgave 2 fra sidste undervisningsgang. Den skal vi lave her (hvis vi overhovedet får tid).

	Spontan abort: ja	Spontan abort: nej
Mødre over 40 år	21	255
Mødre under 30 år	70	3825

Region	Fuld/delvis	Begrænset	Ikke deltaget
Hovedstaden	547	395	251
Midtjylland	458	304	212
Syddanmark	552	261	165
Nordjylland	236	117	80
Sjælland	365	301	127

Undervisningsgang 5

Mandag den 25. maj 2020. Kl. 17.15-20.00

Zoom link
Inden undervisningen:
- Læs kapitel 6 fra noterne. Dette kapitel er sendt ud via mail (og er stadig ret råt og ufærdigt).
- Følg kurserne “Multiple and logistic regression” og Generalized linear model in R fra DataCamp.
Slides Kan findes her. Og her er koden fra sidste undervisningsgang.
Øvelser:
1. Datasættet Titanic er allerede installeret med R og man kan få adgang til det ved at kalde nedenstående kode. Data er gemt i et lidt sjovt format, og vi bliver nødt til at bruge funktionen expand_table() fra pakken MESS til at konvertere det til en data frame.
```
data(Titanic)     # Få adgang til data
library("MESS")   # Hent pakke med expand_table
titanic <- expand_table(Titanic)  # Konverter data
```
  Datasættet titanic indeholder nu følgende 4 kategoriske variable: Survived, Age, Class og Sex. Vi er interesseret i at undersøge, hvorledes overlevelsessandsynligheden afhænger af passagerens alder, køn og klasse.
  1. Til at begynde med skal vi bare se på, hvordan overlevelsessandsynligheden afhænger af køn. Udregn et 95% konfidensinterval for sandsynligheden for at overleve for henholdsvis mænd og kvinder. [Hint: brug prop.test() eller binom.test()]
  2. Opstil en logistisk regressionmodel, hvor odds for overlevelse afhænger af alder, køn og klasse, og estimer modellens parametre. Giv en fortolkning af modellens parametre i ord.
  3. Udregn 95% konfidensintervaller for odds ratio for køn og klasse. Formuler konklusionen i ord.
  4. Hvilken af modellens tre forklarende variable har størst betydning for odds for at overleve. Hvad forstår man ved “størst betydning”?
  5. Udregn sandsynligheden for at en dreng på første klasse vil overleve Titanic og sammenhold med sandsynligheden for at en voksen kvinde fra 2. klasse vil overleve.
  Et endnu mere detaljeret datasæt om passagererne på Titanic kan findes i pakken titanic, hvis man gerne vil analysere disse data mere.
2. I pakken MASS ligger datasættet birthwt, der indeholder informationer omkring 189 kvinder, der netop har født. Man er interesseret i at undersøge, hvilke faktorer, der kunne være associeret til at barnet får lav fødselsvægt. Lav fødselsvægt er her defineret ved at barnet vejede mindre end 2500 gram.
```
library("MASS")  # Hent den relevante pakke
data(birthwt)    # Hent datasættet      
```
  Vi vil her udelukkende beskæftige os med moderens alder (age), hvorvidt hun røg under graviditeten (smoke) og om barnet havde lav fødselsvægt (low).
  1. Lav et plot af stikprøven med variablen low på \(y\)-aksen og variablen age på \(x\)-aksen. Hvad ser du ud fra plottet?
  2. Brug en relevant statistisk model til at estimere, hvordan kvindens alder og rygning påvirker sandsynligheden for at barnet har lav fødselsvægt.
  3. Udregn odds-ratioen for alder, og skriv en fortolkning af denne i ord.
  4. Er sammenhængen mellem sandsynligheden for lav fødselsvægt og alder statistisk signifikant?
  5. Beregn et 95% konfidensinterval for odds-ratioen, og skriv en fortolkning af denne i ord.
  6. Hvad er den relative forskel i odds for at barnet har lav fødselsvægt, hvis man sammenligner to tilfældige kvinder, hvor den ene er 10 år ældre end den anden? Du kan antage, at begge kvinder enten ryger eller ikke ryger.
  7. Lav en statistisk vurdering, der undersøger, om alderseffekten afhænger af, om man ryger eller ej.
  8. Opskriv den estimerede sammenhæng mellem sandsynligheden for at have lav fødselsvægt og alder.
3. Vores hængepartier fra sidste og forrige gang

Undervisningsgange

Undervisningsgang 1

Undervisningsgang 2

Undervisningsgang 3

Undervisningsgang 4

Undervisningsgang 5