class: center, middle, inverse, title-slide # Crash course i statistik? ### Claus Thorn Ekstrøm
UCPH Biostatistics
.small[
ekstrom@sund.ku.dk
] ### videnskab.dk
3. marts 2022
@ClausEkstrom
.small[Slides:
biostatistics.dk/talks/
] --- class: animated, fadeIn layout: true --- background-image: url("pics/process.png") background-size: 45% background-position: 50% 63% # Den videnskabelige proces ??? Epistemologi. Videnskab = skab af viden --- class: inverse, middle, center # Inferens og fortolkning af resultater --- # Hvad er det nu, at en `\(p\)`-værdi er? > *The `\(p\)` value is the probability of having obtained a result **at least as extreme** as the one found with our sample if the null hypothesis were true.* --- Kirkwood & Sterne -- HVIS nulhypotsen er sand<br> .yellow[OG ALLE ANDRE antagelser *også* er sande]<br> SÅ udtrykker `\(p\)`-værdien sandsynligheden for at observere en teststørrelse, der er mindst lige så ekstrem, som den i din stikprøve. -- `\(p\)`-værdien måler, hvor overrasket man er? ??? If A is TRUE then B cannot occur; However, B has occurred; Therefore A is false If A is TRUE then B probably cannot occur; However, B has occurred; Therefore A is probably false --- # Hvad er problemet med `\(p\)`-værdier? Forskeren vil typisk gerne have svare på `$$P(H | D)$$` men `\(p\)`-værdien udregner `$$P(D \text{ "eller mere ekstrem" } | H)$$` ??? They try to answer the *"wrong"* question They give a very precise answer to the wrong question instead of an approxiomate answer to the right question. --- background-image: url(pics/indded.png) background-size: 100% --- # `\(p\)`-værdien bruges forkert Som beslutningsregel: `$$p \text{-værdi} \left\{\begin{array}{ll}<0.05 & \text{forkast} - \text{"signifikant"} \\ \geq 0.05 & \text{ikke forkast} - \text{"ikke signifikant" or "ingen association"} \end{array} \right.$$` * Arbitrær tærskel * Signifikant betyder ikke relevant * Ikke-signifikant betyder ikke at `\(H_0\)` er sand eller accepteres. Vi har ikke nok evidens til at forkaste den (*"fraværet af evidens er ikke evidens for fravær"*). ??? "No association" is wrong to say binary thinking makes everything worse in that people inappropriately combine probabilistic statements with Boolean rules. --- background-image: url(pics/tea.png) background-size: 100% --- background-image: url(pics/pvalues.jpg) background-size: 100% --- # `\(p\)`-værdien indeholder to typer information .pull-left[ `\(p\)`-værdien kombinerer *effektstørrelsen* med *stikprøvestørrelsen*. Når `\(N\rightarrow\infty\)` bliver *alt* signifikant. ] .pull-right[ <img src="pics/donkey.jpg" width="100%" /> ] --- # Konfidensintervaller Konfidensintervaller er defineret som de værdier af `\(H_0\)`, der *ikke* forkastes. ![](videnskabdk_files/figure-html/unnamed-chunk-2-1.gif)<!-- --> Som at lave **mange** tests af nulhypoteser --- class: inverse, middle, center # DAGs & all that jazz --- # Hvad bruger vi statistik til? .pull-left[ * **Mønstre**. <br> Hvad ser vi? * **Prædiktion**. <br> Hvad forventer vi ved ny observation? * **Kausalitet**. <br> Hvorfor? ] .pull-right[ ![](videnskabdk_files/figure-html/unnamed-chunk-3-1.png)<!-- --> ] --- # Eksempel: Is og hajer ![](videnskabdk_files/figure-html/unnamed-chunk-4-1.png)<!-- --> --- # Konfundering ```r library("stat4med") lm(FEV ~ Smoke, data=fev) %>% broom::tidy() ``` ``` ## # A tibble: 2 × 5 ## term estimate std.error statistic p.value ## <chr> <dbl> <dbl> <dbl> <dbl> ## 1 (Intercept) 2.57 0.0347 74.0 1.49e-319 *## 2 SmokeYes 0.711 0.110 6.46 1.99e- 10 ``` --- # "Man skal tegne før man må regne" ![](videnskabdk_files/figure-html/unnamed-chunk-6-1.png)<!-- --> --- ```r lm(FEV ~ Smoke + Age, data=fev) %>% broom::tidy() ``` ``` ## # A tibble: 3 × 5 ## term estimate std.error statistic p.value ## <chr> <dbl> <dbl> <dbl> <dbl> ## 1 (Intercept) 0.367 0.0814 4.51 7.65e- 6 *## 2 SmokeYes -0.209 0.0807 -2.59 9.86e- 3 ## 3 Age 0.231 0.00818 28.2 8.28e-115 ``` --- # DAG (Directed Acyclic Graph) <img src="pics/dag.png" width="2192" /> --- # Hvad skal vi justere for? Afhænger af: * Hvad vil vi undersøge? * Mediatorer / collinearitet? * Konfundering - men pas på! --- class: inverse, middle, center # Selektionsbias --- # Eksempel: skuespillere i populære film ![](videnskabdk_files/figure-html/unnamed-chunk-9-1.png)<!-- --> --- # Man må ikke betinge på fremtiden <img src="pics/politiken.png" width="2933" /> "mennesker, der har fået ikke-dødelig hudkræft – en lidelse, der som regel skyldes, at en person har været udsat for store mængder sollys – i gennemsnit lever seks år længere end resten af befolkningen." --- class: inverse, middle, center # Diverse --- background-image: url("pics/cat.png") background-size: 60% # Usikkerhedsintervaller --- # ML / AI / AGI Pas på begejstringen! --- background-image: url(pics/halvpris.jpeg) background-size: 60% # Absolut risiko vs. relativ risiko --- background-image: url(pics/iceberg.jpg) background-size: 100% # Alle de andre ting ... .pull-left[ * Hvilke variable? * Hvordan målt? * Missing data * Data entry errors * Hvilken model? * Hvilket design? * Hvilke antagelser? ] .pull-right[ * Konfundering * Collinearity * Overfitting * `\(p\)` hacking * Fortolkning * Published? * Repliceret? * Generaliserbart? ] --- # What makes a good scientist? .small[Be curious ... keep learning new ... remember collaborative effort] -- | Scientist | Salesman | |:-----------|:----------| | Be sceptical of your results | "Sell" your results | | Interpret conclusions carefully | Highlight/exaggerate importance | | "Publish" negative results | Publish strategically | | Replicate replicate replicate | Replicate ... if you must | | Novel exciting results are less likely to be true. Double check them | Publish novel results before they get scooped |