Statistische modellen en data-analyse

Ga naar: navigatie, zoeken

Samenvattingen

Klik hier om de samenvattingen te bekijken

Inleiding

Dit vak werd in 2010 gegeven door Mia Hubert, in 2009 door Maarten Janssen en daarvoor door Jan Beirlant.


Op het examen krijg je drie uur de tijd. 2010: Mondeling krijg je twee overzichtsvragen over de cursus, die niets te maken hebben met het schriftelijk gedeelte. Het examen is gesloten boek, je mag wel een A4-pagina recto verso vol schrijven met zaken die jij nuttig vindt. Voor 2010: mondeling met schriftelijke voorbereiding en open boek.

Maandag 20/06/2011

Het vak werd dit jaar gegeven door Johan Van Kerckhoven. Het examen duurde 3,5 uur. Het examen was gesloten boek, maar je mocht wel een A4-blad meebrengen, voor en achterkant handgeschreven beschreven. (het is ongelooflijk hoeveel er op zo'n blad kan als je klein schrijft!) Er was ook een mondeling deel. Daar moest je een kaartje trekken met daarop een hoofdstuk (multicollineariteit, robuuste regressie, principal component regression, maximum likelihood) en daar dan wat over babbelen. Hij was heel vriendelijk en vroeg niet echt moeilijke dingen. Als je wist wat er in de cursus stond was dat genoeg.

  • Zei en i.i.d.
  1. Toon aan dat de kleinste kwadratenschatter gelijk is aan de maximum likelihood schatter
  2. Beschouw de gestandaardiseerde observaties en van en . Wat is de relatie tussen en voor j=0,...,p-1 en en ? Toon deze aan.
  3. Geef enkele voordelen van het standaardiseren.
  4. Bij welke modellen moet je zeker standardiseren en waarom?
  • Waar of niet? Indien de uitspraak niet waar is, verklaar waarom of geef een tegenvoorbeeld.
  1. Beschouw het model en en i.i.d. Dan is , met de kleinste kwadratenschatter en het steekproefgemiddelde.
  2. Zij en univariaat normaal verdeeld, dan is bivariaat normaal verdeeld.
  3. Bij een lineair model is het betrouwbaarheidsinterval voor de gemiddelde respons gegeven bepaalde waarden van de voorspellende variabelen altijd smaller dan het voorspellingsinterval gegeven die bepaalde waarden van de voorspellende variabelen.
  • en zei
  1. Bepaal B zodat
  2. Bereken Var BX
  3. Zijn en onafhankelijk van elkaar?
  • met ongekende mu en Sigma. De steekproefschatters zijn

en .

  1. Bepaal voor n=5 alle mogelijke waarvoor verworpen wordt tegenover op significantieniveau 5%.
  2. Gegeven . Bepaal vanaf welke n de hypothese verworpen wordt op significantieniveau 5%
  • Gegeven: eigenwaarden van principaalcomponenten en cumulatieve % van variantie. Correlatiematrix tussen de PC's en de 10 variabelen. 2 grafieken.
  1. Waarom heeft de onderzoeker PCA gebruikt in plaats van lineaire regressie?
  2. Wat zijn de voornaamste conclusies? Motiveer
  3. Interpreteer het feit dat de kleinste eigenwaarde 0 is.
  4. Als je 2 variabelen zou moeten kiezen van de 10 om de data voor te stellen, welke zou je dan kiezen en waarom?

Maandag 14/06/10 voormiddag

  • Iemand heeft zonnepanelen geplaatst en houdt een jaar lang de productie bij. Gegeven zijn (in kWh) het totaal aantal geproduceerde elektriciteit, per dag. (Dus bv. als er elke maandag 3 kWh geproduceerd is, dan komt hij op 3*52 uit.) Deze dagtotalen zijn gegeven (de waarden lagen tussen 700 en 1000 voor elke dag). Test of er een verband bestaat tussen de productie en de dag van de week.
  • Stel dat X~ en B een reële qxp-matrix is met rang(B) . Wat is de verdeling van BX?
  • Zij een steekproef uit een multivariate normale verdeling met gemiddelde µ en GEKENDE covariantiematrix . We werken met de hypothesetest .
    • Stel de likelihood ratio statistiek op en bewijs dat
    • Wat is de verdeling van onder de nulhypothese?
  • Van 45 studenten werd er bijgehouden wat hun gemiddeld resultaat was tijdens een bepaalde examenperiode en hoeveel alcoholische dranken ze hadden geconsumeerd tijdens de blok. Deze laatste variabele kon drie waarden aannemen: 3 of minder, 4 tot 15 en 16 of meer. Een lineair model werd gefit van het gemiddeld resultaat t.o.v. het aantal dranken, met output: t-testen, geschatte waarden voor de slopes en het intercept, overall F-test, ..., de correlatie tussen deze beta's en de model matrix.
    • Test of er één of ander verband bestaat tussen het gemiddeld resultaat en het aantal dranken.
    • Wat zijn de modelaannames?
    • Bereken een 95% betrouwbaarheidsinterval van het verschil tussen het gemiddeld resultaat van een gematigde drinker (4 tot 15) en dat van een grote drinker (16 of meer).
    • Geef een interpretatie van dit interval.

dinsdag 16/06/09 voormiddag

  • Een variabele Y hangt af van de tijd, maar we weten niet precies hoe. We veronderstellen een veelterm-regressiemodel.
    • Stel we doen n observaties, sommige van deze observaties kunnen op het zelfde tijdstip gebeuren. In het totaal zijn er k verschillende tijdstippen, met k<n. Wat is de maximale waarde van de graad van de hoogste macht in het regressiemodel ?
    • Stel we maken een onderscheid tussen Y1 en Y2. Dat zijn dus twee groepen, bijvoorbeeld mannen versus vrouwen. Hoe kunnen we onderzoeken of de Y(t) relatie anders is in groep 1 dan in groep 2 ?
    • Hoe kan je met ANOVA onderzoeken of Y op een andere manier afhangt van t in de ene groep dan in de andere groep. Let wel op: het is mogelijk dat het aantal observaties op t_i bij groep 1 en groep 2 niet hetzelfde is. Wat zijn de voordelen en nadelen van ANOVA ?
    • Stel nu dat het aantal observaties op t_i bij groep 1 en groep 2 hetzelfde is, waardoor paren mogelijk wordt. Hoe zou je nu onderzoeken of Y op een andere manier afhangt van t in de ene groep dan in de andere groep ?
  • Een variabele is lognormaal verdeeld. Een lognormale verdeling heeft twee parameters: mu en sigma. Als een variabele log(X) N(mu,sigma) verdeeld is, dan is X lognormaal verdeeld met parameters mu en sigma. De verwachte waarde van een lognormale verdeling is e^(mu + (sigma^2)/2). Zoek een maximaal aannemelijke schatter voor de verwachte waarde van een lognormale verdeling.
  • Een eenvoudige lineaire regressie met 2 parameters, Y_i=a*x_i + b.
    • Leg uit: "We willen de schatter voor Y(x0) zo nauwkeurig mogelijk. Als je de x-waarden zou mogen kiezen, dan maakt het niet uit hoe precies je ze kiest, zolang de gemiddelde x maar gelijk is aan x0. "
    • De configuratie van de x-waarden is wel belangrijk wanneer het gaat om de nauwkeurigheid (*) van {de schatter van de nauwkeurigheid van de schatter van Y in x0} . Als je die nauwkeurigheid (*) zo hoog mogelijk wil, in welke configuratie dien je je x-waarden dan te kiezen ?

(hint die niet op het examen stond: bij de moeilijke tweede deelvraag van de laatste vraag, dien je twee chi-kwadraat verdelingen te vergelijken)

maandag 15/06/09 namiddag

  • Er wordt een vat met radioactief afval uit de zee gevist. Het vat bevat 3 verschillende stoffen, van elke stof is de halfwaardetijd gekend. Op regelmatige tijdstippen wordt de activiteit van het vat gemeten.
    • Stel een model op aan de hand waarvan de hoeveelheid van de 3 stoffen geschat kan worden.
    • Wat is de verdeling van de fluctuaties (hint: niet normaal verdeeld)? Aan welke twee modelveronderstellingen is niet voldaan? Hoe kan men deze twee problemen (tegelijk) oplossen?
  • Gegeven is een toevalsveranderlijke X die enkel waarden kan aannemen in een interval van de vorm met . Stel dat de dichtheidsfunctie van X van de vorm is met een stijgende functie op het intervan [0,1]. Gegeven is een steekproef van X. Toon aan dat de maximale aannemelijkheidsschatter voor a gegeven wordt de grootste observatie uit de steekproef.
  • Een zekere responsvariabele voldoet aan een enkelvoudig lineair model. Stel dat je de responsvariabele mag meten bij 4 waarden van de verklarende variabele. Bij eenzelfde waarde van de verklarende variabele mogen ook meerdere metingen gedaan worden, maar in totaal moeten er dus 4 metingen zijn. De verklarende variabele mag ook enkel waarden aannemen tussen 0 en 1. Welke 4 waarden voor de verklarende variabele in [0,1] moet men kiezen opdat de helling van de regressierechte zo nauwkeurig mogelijk geschat wordt?

maandag 15/06/09 voormiddag

  • Je beschikt over de volgende meetgegevens: je hebt de neerslaghoeveelheid van telkens de eerste dag

van elke maand, en dit over een tijdsperiode van 25 jaar.

    • Je bent geïnteresseerd in de voorspelling van de temperatuur op telkens de 15de dag van de maand. Welk model gebruik je hiervoor?
    • Hoe kan je met een regressiemodel (geen ANOVA dus) aantonen of er een hoeveelheid neerslag per maand verschilt? Zou je ANOVA gebruiken voor deze specifieke vraag? Waarom wel of niet?
    • De gemeten hoeveelheid neerslag van 1 dag is waarschijnlijk niet normaal verdeeld.

Geef een toevalsmodel dat dit in rekening brengt en hoe zou je transformeren om normaliteit te bekomen?

  • Gegeven zijn waarnemingen van een bivariate toevalsveranderlijke die uniform verdeeld is op een cirkelschijf met als middelpunt de oorsprong. Zoek de maximaal aannemelijke schatter voor de straal van deze cirkelschijf.
  • Waarvoor dient modelselectie? Waarom kunnen we niet gewoon beginnen met een zeker, groot model en dan nagaan welke covariaten significant zijn in het model?


maandag 23/06/08 namiddag

  • Gevraagd wordt de gemiddelde massa te bepalen van drie soorten appelen. We voeren 6 metingen uit. Onderstaande tabel geeft aan hoeveel appelen van iedere soort in elke weging voorkomen.
    • Stel een model op waarbij we aannemen dat de variantie in massa van de drie soorten gelijk is. Meetfouten mogen verwaarloosd worden. Welke aannames moeten we verder nog maken? Hoe kunnen die geverifieerd worden?
    • Hoe kunnen we testen of de drie soorten gemiddeld evenveel wegen of niet?
  • Gegeven maximaal aannemelijke schatters en voor de parameters van een normale veranderlijke X. Wat zijn de meest aannemelijke schatters voor het 10%-bovenkwantiel van X en voor de kans dat X groter is dan een zekere waarde ?
  • Waarom is Bonferroni minder geschikt voor groot aantal simultane testen? Is Scheffé minder goed voor een klein aantal testen? Waarom (niet)?

maandag 16/06/08 voormiddag

  • Men onderzoekt hoe het jaarlijks inkomen van een 25-jarige afhangt van het aantal jaar dat men heeft voortgestudeerd na het middelbaar onderwijs. Hiertoe worden 50 mensen geïnterviewd waarvan 10 één jaar hebben voortgestudeerd, 10 twee jaar, 10 drie jaar, 10 vier jaar en 10 vijf jaar. Het verband blijkt niet louter lineair te zijn, maar een kwadratische component te hebben.
    • Schrijf een regressiemodel dat dit probleem kan analyseren. Welke aannames moet je maken?
    • Hoe kan je normaliteit testen?
    • Dit probleem kan ook geanalyseerd worden met ANOVA. Formuleer het ANOVA-model. Waarom verkiezen we hier een regressiemodel?
    • Stel dat we slechts beschikken over data van drie klassen (1 jaar, 3 jaar en 5 jaar). Verandert dat iets aan de voorkeur voor regressie boven ANOVA?
    • Analyse (op normaliteit) van het residu onder het regressiemodel levert geen significante afwijking van normaliteit op. Aan de andere kant is er geen enkel bekend resultaat dat het regressiemodel verantwoordt. Waarom is het dan toegestaan het model toch te gebruiken?
  • Gegeven n waarnemingen van een Bernoulli-experiment (binair experiment: 0-1, lukken-mislukken). Wat is maximum likelihood estimator voor de verhouding p/(1-p) van de kansen p op succes en mislukking 1-p?
  • Leg uit: " In is een schatting van op basis van lineaire regressie even 'goed' als een schatting op basis van n observaties van ."

maandag 16/06/08 namiddag

  • Men wil nagaan wat de invloed is van alcohol op de rijvaardigheid, en meer bepaald op de reactiesnelheid. 12 mannen en 10 vrouwen nemen deel aan een rijsimulatie. Deze mensen drinken eerst een (voor iedereen verschillende) hoeveelheid alcohol. Op het moment van de rijsimulatie wordt het alcoholpromillage in het bloed gemeten. Daarnaast wordt de gemiddelde reactiesnelheid gemeten.
    • Stel een model op dat bovenstaand experiment beschrijft.
    • Welke veronderstellingen moeten gemaakt worden? Bespreek (bondig) hoe we kunnen nagaan of die veronderstellingen correct zijn en wat we eventueel kunnen doen als deze niet voldaan zijn.
    • Hoe kunnen we testen of het effect van alcohol bij vrouwen anders is dan bij mannen?
  • Gegeven n waarnemingen uit een exponentieel verdeelde wachttijd met onbekende intensiteit . De verdelingsfunctie is . Zoek een maximum likelihood estimator voor de kans dat de wachttijd groter is dan .
  • In een gepaarde t-toets voor een test geldt onder dat voor D=X-Y. Waarom gebruiken we dit niet om de variantie te schatten (onder )? We zouden dan krijgen zonder dat het nodig is te schatten. Wat zou het voordeel zijn? Waarom doen we dit dan niet?


2006-2007: 18/01/07

Vragen zijn zo'n beetje uit de losse pols geformuleerd hier.

Vraag 1

Hoe kunnen we homoscedasticiteit tegenover heteroscedasticiteit testen in het univariate ANOVA model? Geef formules en uitleg voor de teststatistiek, de verdeling onder nulhypothese en de p-waarde. Waarom is de teststatistiek zinvol? Wat betekent ze?

Vraag 2

In de bedrijfswereld gebruikt men dikwijls een afwikkelingsdriehoek om de kosten van een ongeval op lange termijn (meestal 10 jaar) weer te geven. Men is dan ook geïnteresseerd in voorspellingen over wat er de volgende jaren te betalen valt, dit is E(Yi,j). Hoe te lezen: de rijen stellen opeenvolgende jaren voor. De kolommen stellen voor hoeveel we n jaar verder betaald hebben hiervoor. Bijvoorbeeld: Y2,3 stelt voor hoeveel we in het jaar 5 (3 jaar later dan 2) hebben betaald aan ongevallen uit het jaar 2.

Afwikkelingsdriehoek
Jaar 1 2 ... T - 1 T
1 Y1,1 Y1,2 ... Y1,T-1 Y1,T
2 Y2,1 Y2,2 ... Y2,T-1
3 Y3,1 Y3,2 ...
...
T YT,1
  1. Stel dat we een regressie willen doen volgens het algemeen lineair model met . Hoe bouwen we dit concreet op?
  2. Op de nevendiagonalen staan telkens de waarden van wat er in 1 kalenderjaar betaald wordt, bvb, de getallen en zijn betaald in het jaar 3. Stel nu dat we een simpele lineaire regressie willen doen die in functie van het kalenderjaar geeft. Hoe bouwen we dit model op?
  3. Bepaal met behulp van het model uit de vorige oefening een schatting voor de som van de betalingen in het jaar T+1.

Vraag 3

  1. Als we een steekproef van n nemen die we voorstellen door van , hoe kunnen we dan grafisch verifiëren of dit uit een multivariate normale verdeling komt?
  2. Zie figuur. Dit is een univariate normale kwantielplot van een eerste principaalcomponent. Welke van onderstaande uitspraken is juist? Verantwoord.
    1. De staarten van de verdeling van de Mahalanobisafstanden zijn zwaarder dan die van een -verdeling.
    2. De verdeling is elliptisch en de staarten van de verdeling van de Mahalanobisafstanden zijn zwaarder dan die van een -verdeling.
    3. De staarten van de verdeling van de Mahalanobisafstanden zijn lichter dan die van een -verdeling.
    4. De verdeling is elliptisch en de staarten van de verdeling van de Mahalanobisafstanden zijn lichter dan die van een -verdeling.

Stat qqheavytail.png

Vraag 4

Voor n personen werd een assertiviteitsmeting gedaan na 2 behandelingen. is de score voor behandeling, en na de eerste en de tweede behandeling. De personen werden willekeurig in 2 groepen van grootte en ingedeeld.

  1. Geef de datastructuur die in een statistisch programma gebruikt zou worden als model.
  2. Hoe testen we of er een significante stijging is van en/of ? Bekijk alleen groep 1. Geef in detail de test, betrouwbaarheidsintervallen, het statistische model en hoe de p-waarde berekend wordt.
  3. Hoe testen we of de verschillen tussen en TESAMEN voor beide groepen gemiddeld hetzelfde is?