Mandag den 25. maj 2020. Kl. 17.15-20.00
- Zoom link: https://ucph-ku.zoom.us/j/65751505960?pwd=TWJGVEdjcGxNL2xDcm1xeEVhM3k3UT09
- Inden undervisningen:
- Slides Kan findes her.
- Videoer Kan ses her.
- Øvelser: Løsningskommentarer til opgaverne er her
Datasættet Titanic
er allerede installeret med R og man kan få adgang til det ved at kalde nedenstående kode. Data er gemt i et lidt sjovt format, og vi bliver nødt til at bruge funktionen expand_table()
fra pakken MESS
til at konvertere det til en data frame.
data(Titanic) # Få adgang til data
library("MESS") # Hent pakke med expand_table
titanic <- expand_table(Titanic) # Konverter data
Datasættet titanic
indeholder nu følgende 4 kategoriske variable: Survived
, Age
, Class
og Sex
. Vi er interesseret i at undersøge, hvorledes overlevelsessandsynligheden afhænger af passagerens alder, køn og klasse.
- Til at begynde med skal vi bare se på, hvordan overlevelsessandsynligheden afhænger af køn. Udregn et 95% konfidensinterval for sandsynligheden for at overleve for henholdsvis mænd og kvinder. [Hint: brug
prop.test()
eller binom.test()
]
- Opstil en logistisk regressionmodel, hvor odds for overlevelse afhænger af alder, køn og klasse, og estimer modellens parametre. Giv en fortolkning af modellens parametre i ord.
- Udregn 95% konfidensintervaller for odds ratio for køn og klasse. Formuler konklusionen i ord.
- Hvilken af modellens tre forklarende variable har størst betydning for odds for at overleve. Hvad forstår man ved “størst betydning”?
- Udregn sandsynligheden for at en dreng på første klasse vil overleve Titanic og sammenhold med sandsynligheden for at en voksen kvinde fra 2. klasse vil overleve.
Et endnu mere detaljeret datasæt om passagererne på Titanic kan findes i pakken titanic
, hvis man gerne vil analysere disse data mere.
I pakken MASS
ligger datasættet birthwt
, der indeholder informationer omkring 189 kvinder, der netop har født. Man er interesseret i at undersøge, hvilke faktorer, der kunne være associeret til at barnet får lav fødselsvægt. Lav fødselsvægt er her defineret ved at barnet vejede mindre end 2500 gram.
library("MASS") # Hent den relevante pakke
data(birthwt) # Hent datasættet
Vi vil her udelukkende beskæftige os med moderens alder (age
), hvorvidt hun røg under graviditeten (smoke
) og om barnet havde lav fødselsvægt (low
).
- Lav et plot af stikprøven med variablen
low
på \(y\)-aksen og variablen age
på \(x\)-aksen. Hvad ser du ud fra plottet?
- Brug en relevant statistisk model til at estimere, hvordan kvindens alder og rygning påvirker sandsynligheden for at barnet har lav fødselsvægt.
- Udregn odds-ratioen for alder, og skriv en fortolkning af denne i ord.
- Er sammenhængen mellem sandsynligheden for lav fødselsvægt og alder statistisk signifikant?
- Beregn et 95% konfidensinterval for odds-ratioen, og skriv en fortolkning af denne i ord.
- Hvad er den relative forskel i odds for at barnet har lav fødselsvægt, hvis man sammenligner to tilfældige kvinder, hvor den ene er 10 år ældre end den anden? Du kan antage, at begge kvinder enten ryger eller ikke ryger.
- Lav en statistisk vurdering, der undersøger, om alderseffekten afhænger af, om man ryger eller ej.
- Opskriv den estimerede sammenhæng mellem sandsynligheden for at have lav fødselsvægt og alder.
Vores hængepartier fra sidste og forrige gang