Shiny apps

Her kan du finde nogle Shiny apps som jeg har lavet til brug i undervisningssammenhænge.

Selektion i lineære regressionsmodeller

Her illustreres effekten af selektion i lineære regressionsmodeller.

Fremgangsmåde:

Generér et datasæt under fanen Data generation. Her skal man specificere den antagede (sande) sammenhæng mellem X og Y, spredningen på fejlleddet samt antallet af observationer.
Selektionen styres via fanen Selection. Her kan man lave en selektion på både X- og Y-akse og selektionen foregår således, at det kun er observationer inden for det valgte område som medtages. Under Preferences skal man vælge Selection: On for at aktivere selektionen.
I grafen vises de oprindelige datapunkter, de selekterede datapunkter samt de estimerede bedste rette linjer for de to datasæt. Estimaterne for begge datasæt findes også under fanen Results.
For store datasæt kan man med fordel justere gennemsigtigheden af punkterne på grafen via Transparency-funktionen under Preferences Man kan også helt vælge punkterne fra under Observations: Show/Hide.

Målefejl i lineære regressionsmodeller

Her illustreres effekten af forskellige typer af målefejl i lineære regressionsmodeller.

Fremgangsmåde:

Generér et datasæt under fanen Data generation. Her skal man specificere den antagede (sande) sammenhæng mellem X og Y, spredningen på fejlleddet samt antallet af observationer.
Målefejlen(e) styres via fanerne Measurement error in X/Y. Her kan man introducere en målefejl i både X og Y. Under Measurement error (mean) og Measurement error (sd) introduceres en systematisk henholdsvis tilfældig målefejl på X/Y-værdien. Dette skal forstås således, at der lægges en normalfordelt variabel til den oprindelige måling med middelværdi mean og spredning sd. Under Preferences skal man vælge Measurement error: On for aktivere målefejlen(e).
Under Measurement error applied to X/Y-values kan det bestemmes om målefejlen kun skal pålægges en delmængde af observationerne.
I grafen vises de oprindelige datapunkter, datapunkterne behæftet med målefejl samt de estimerede bedste rette linjer for de to datasæt. Estimaterne for begge datasæt findes også under fanen Results. Ønsker at man se effekten af målefejlen(e) for de enkelte observationer, kan man forbinde observationerne ved Connect observations: On under Preferences.
For store datasæt kan man med fordel justere på gennemsigtigheden af punkterne og/eller forbindelseslinjerne på grafen under Preferences via Transparency-funktionerne. Man kan også helt vælge punkterne fra under Observations: Show/Hide.

Tips:

En tilfældig (ikke-systematisk) målefejl svarer til mean = 0 og sd > 0.
En systematisk målefejl svarer til mean != 0.
En systematisk målefejl hvor sd = 0 svarer til, at alle observationer pålægges den samme målefejl givet ved mean. Det er nok sjældent realistisk i praksis.

Brug af splines i lineære regressionsmodeller

Her illustreres forskellen mellem at modellere sammenhængen mellem kontinuert udfald og kontinuert forklarende variabel som lineær, kategorisk og ved hjælp af splines.

Fremgangsmåde:

Generér et datasæt under fanen Data generation. Her skal man specificere den sande sammenhæng mellem X og Y. Dette kan gøres ved at vælge en af de prespecificerede muligheder eller man kan indtaste sammenhængen selv. Hvis man selv vil indtaste sammenhængen skal det specificeres som en funktion af x med R-syntax, eksempelvis: x*exp(sqrt(x)). Antallet af observationer, residualspredning samt maksimum og minimum x-værdi skal også specificeres.
Når datasættet er genereret, vil tre modeller automatisk blive fittet, hvor X indgår lineært, kategorisk og via en restricted cubic spline.
Under fanen Model fitting kan man ændre antallet af kategorier eller selv specificere kategorierne og man kan ændre antallet af knuder eller selv sætte knudepunkterne i spline-fittet.
Under fanen Visuals kan man fravælge nogle af komponenterne i plottet.

QQ-plot generator

Her genereres en række QQ-plots fra en normalfordeling med den valgte stikprøvestørrelse. Dette kan bruges til at sammenligne sit eget QQ-plot med disse for at vurdere om det er rimeligt at antage, at et givet datasæt kan beskrives med en normalfordeling.