Statistiek en Data-Analyse

Ga naar: navigatie, zoeken

Samenvattingen

Klik hier om de samenvattingen te bekijken

Inleiding

Dit vak wordt sinds het academiejaar 2015-2016 gegeven door prof. Irène Gijbels in elke CBBGG-bachelor en de bachelor informatica (2e fase). Hiervoor werd het gegeven door prof. Mia Hubert. Voor het academiejaar 2009-2010 kregen de informatici het vak Statistiek samen met de wiskundigen en fysici.

Per week is er een hoorcollege (in het begin twee) waar na twee weken niemand meer naartoe komt. Het handboek is redelijk duidelijk: er zijn samenvattingen aan het einde van elk hoofdstuk en bijna elk stuk theorie wordt geïllustreerd met een voorbeeld. Het is toch nuttig om naar de oefenzittingen te komen, omdat daar duidelijk wordt hoe oefeningen op het examen gemaakt moeten worden, terwijl het handboek voornamelijk theorie bespreekt. In totaal zijn er maar zes oefenzittingen.

Daarnaast zijn er 3 zelfstudiepaketten die je leren werken met de statistische programmeertaal R. Om die in detail door te werken heb je normaal gezien meerdere dagen nodig. Het is niet noodzakelijk deze te maken, maar je moet je kennis van R (die enkel daarin wordt aangereikt) wel kunnen gebruiken voor het practicum en op het examen.

Aan het einde van het semester is er een practicum over bivariate inferentie (2016), dat je alleen of per twee maakt. Dit staat op 3 van de 20 punten. Het stramien is gelijkaardig aan dat van de oefeningen over hoofdstukken 6 en 8, maar dit keer werk je met R in plaats van op papier. Als je geluk hebt met je gegevens, is het mogelijk om dit op een dag af te werken, in veronderstelling dat je met R overweg kunt. Vertrouw er echter niet op dat dit zeker het geval zal zijn. Wie in de problemen komt, kan tijdens de oefenzitting hulp vragen.

Vakevaluatie

Elk puntje hieronder is iemands mening. Verander aub geen puntjes. Als je een andere mening hebt, gelieve ze onderaan toe te voegen.

Kwaliteit cursus (prijs, duidelijkheid, overeenkomst met les, ...)

  • 2016: Het handboek is OK als je de wiskunde wat kunt volgen. Alles wat je moet kennen, staat daarin.

Studiebelasting (aantal studiepunten in verhouding met bestede tijd)

  • 2016: 3 studiepunten wel correct. Het is zoals Wiskunde II, maar dan over het hele semester. Aan het einde van het semester is er wel nog een practicum.

Plaats binnen de opleiding (nodige voorkennis, overlap met andere vakken, relevantie van het vak,...)

  • 2016: Wetenschappers moeten iets kennen van statistiek. Zo is het nu eenmaal. Het overlapt niet met eerder geziene vakken.

Manier van lesgeven bij hoorcolleges (snelheid, verstaanbaarheid, structuur, nut, ...)

  • 2016: Na een tijd ging er niemand meer naar de colleges omdat de uitleg van Prof. Irene Gijbels te saai was.

Evaluatie oefenzittingen/labo's (nut, begeleiding, ...)

  • 2016: De oefenzittingen geven een goed beeld van het type vragen dat je kan verwachten. Tom Reynkens was een goede assistent, die het nog wat uitlegde voor wie niet naar het college was geweest.

Examen (mate waarin het een weerspiegeling is van de cursus, examenvorm, ...)

  • 2016: Het examen is te doen als je de oefeningen uit het handboek en de oefenzittingen begrijpt. Over zowat alles wordt er een vraag gesteld.


Examens

Academiejaar 2017-2018

19 januari 2018

  1. Theorie:
    1. Bewijs dat de exponentiële verdeling geheugenloos is (en hoe noemt men dat).
    2. Bewijs dat E(k(X)l(Y)) = E(k(X))*E(l(Y)).
    3. gegeven een exponentiële verdeling X en een normale verdeling Y (met gegeven lambda, mu en sigma) bereken E(X*Y^2).
  2. Oefeningen:
    1. A en B gaan met waarschijnlijkheid 0.8 en 0.6 naar de les, wat is de kans dat een van de 2 in de les zitten (onafhankelijk).
    2. Wat is de kans dat B naar een les gaat als A niet naar een les gaat (afhankelijk).
    3. Er zijn 2 keer zoveel hoorcolleges als oefenzittingen, wat is de kans dat B naar een oefenzitting gaat.
    4. De gemiddelde lengte van een vrouw is 165cm met sd = 4 en bij een man is 175cm met sd = 8, ze zijn allebei normaal verdeeld (Y = man, X = vrouw), wat is Y-X, E(Y-X) en Var(Y-X) (lengte is onafhankelijk).
    5. Kans dat man en vrouw allebei < 170cm
    6. Kans dat man kleiner is da vrouw.
    7. Vraag over Cavia's en of meer vitamine C invloed heeft op de groei van hun tanden (sigma, mu en n gegeven) (vraag over betrouwbaarheidsintervallen, normale- en t-verdeling), bereken n zodat foutenmarge < 0.001.
    8. Vraag ?
    9. Vraag ??
    10. Vraag rond lineaire regressiemodel en ANOVA-tabel

Academiejaar 2016-2017

30 januari 2017

Gelieve verder aan te vullen. Enkele deelvragen ontbreken.

  1. Theorie
    1. Juist/foutvragen
      1. Zij X en Y twee standaardnormaal verdeelde toevalsvariabelen en Z normaal verdeeld met gemiddelde 0 en variantie 0.25. Dan volgt X + Y + 4Z een -verdeling met 6 vrijheidsgraden.
      2. Gegeven een bepaalde kansverdeling die gedefnineerd is op het interval [-1, 1]. Voor andere x is de kans 0. De modus van deze kansverdeling is 0.
      3. Zij X en Y binomiaal verdeeld met een gegeven matrices en . Hier is Var(X - 3Y) = E(X - 3Y) = 9.
      4. Nog één.
    2. Bewijs dat E(X) = E(X) en Var(X) = Var(X) / n.
    3. Bewijs dat een onvertekende schatter is voor de steekproefvariantie.
    4. Stel dat we een steekproef uitvoeren op een variabele met gegeven populatiegemiddelde en -variantie. Wat is de kans dat het gemeten gemiddelde 3 is?
  2. Beschouw een experiment waarbij ballen van verschillende kleuren uit een zak gehaald worden, met X het aantal rode ballen en Y het aantal zwarte ballen. Een tabel met kansen op alle mogelijke uitkomsten is gegeven.
    1. Stel de dichtheidsfunctie op van Y gegeven X.
    2. Wat is E(YX^2-2XY)?
    3. Wat is Cov(X,Y)?
    4. Toon op twee verschillende manieren aan dat X en Y afhankelijk zijn.
  3. Op de spoeddienst zijn er gemiddeld 2 aankomsten per uur. Zij X het totale aantal aankomsten in een shift. Een shift duurt 4 uur.
    1. Wat is de meest geschikte verdeling om X te modelleren en waarom is het de Poisson-verdeling? Stel de kansdichtheid op.
    2. Wat is de verwachtingswaarde? Wat is de variantie?
    3. Wat is de kans dat er meer dan 1 aankomst is op een shift?
    4. Dokter Bart werkt niet op kerstavond maar kan opgeroepen worden als er in de helft van de shift strikt meer dan 4 aankomsten zijn. Wat is de kans dat hij opgeroepen wordt?
    5. Wat is de kans dat hij in vijf opeenvolgende jaren precies vier keer op kerstavond opgeroepen wordt?
  4. In een familie is er 25% kans dat een vrouw drager is van het gen voor hemofilie. In dat geval hebben haar zonen elk een kans van 30% percent om de aandoening te hebben, onafhankelijk van elkaar. Als de moeder geen drager is, is de kans 0 voor elke zoon.
    1. Wat is de kans dat bij een moeder met twee kinderen in deze familie de oudste zoon hemofilie heeft en de jongste niet?
    2. Wat is de kans dat een vrouw drager is van het gen als geen van haar drie zonen hemofilie heeft?
  5. Donald beweert dat de gemiddelde levensverwachting van een inwoner van de Verenigde Staten 75 jaar is. Vladimir gelooft hem niet en hackt binnen in het computersysteem van de Amerikaanse overheid. Hij vindt een document met leeftijden bij overlijden van een aantal Amerikanen. De standaardafwijking bedraagt precies 5 en het gemiddelde is 77. Vladimir kan uitstekend met R werken en krijgt de volgende output.
t = (a), df = 25, p-value = (b)
alternative hypothesis: true mean is not equal to (c)
95 percent confidence interval:
 (d) (e)
sample estimates:
mean of x 
   77.0

    1. Welke hypothesen worden gebruikt? Welke verdeling volgt de onderzochte variabele onder H0?
    2. Vul de onbekende waarden aan.
    3. Wat kunnen we zeggen over de levensverwachting? Moet Vladimir Donald gelijk geven?
    4. Stel dat we na jarenlang onderzoek wisten dat de populatievariantie ook 5 is. Moeten we dan onze conclusie veranderen? Leg uit.
  1. Een agent voert alcoholcontroles uit op 3 verschillende plaatsen en test op 3 verschillende percentages alcohol in het bloed. Een kruistabel met absolute frequenties van de metingen is gegeven. Onderzoek of er een verband bestaat tussen beide variabelen.
    1. Welke hypothesen stel je op? Wat zijn de voorwaarden die hiermee geassocieerd zijn om een test uit te voeren en is hieraan voldaan?
    2. Welke teststatistiek gebruik je en welke verdeling volgt deze onder H0?
    3. Bereken de testwaarde en de P-waarde.
    4. Vorm een besluit over de test.
    5. Stel dat de agent zelf gedronken had en op de derde plaats foutief gemeten had, zou dit de P-waarde verhogen of verlagen? De nieuwe metingen van de derde locatie zijn gegeven. Het is niet de bedoeling om de berekening helemaal opnieuw uit te voeren, maar een ruwe schatting op het zicht te geven.
  2. Een Sinterklaasexpert in wording vergelijkt het aantal uren dat kinderen in de maanden voor 6 december in de hoek moeten staan met het aantal pakjes. Hij vind voor de waarden 0 tot 6 de volgende waarden (gegeven in een tabel, gemiddeldes van x en y, variantie en covariantie gegeven).
    1. Maak een scatterplot van de gegevens.
    2. Wat verwacht je van de Pearson correlatiecoefficiënt? Zal deze positief of negatief zijn? Zal de absolute waarde dicht bij 1 liggen?
    3. Bereken de correlatiecoefficiënt. Licht kort toe wat het resultaat betekent.
    4. Stel de regressierechte op.
    5. Liesje is flink geweest en heeft dit jaar twee uur minder in de hoek gestaan dan vorig jaar. Hoeveel pakjes kan ze meer verwachten dan vorig jaar?


20 januari 2017

Dit mist veel deelvragen en wat er staat is waarschijnlijk ook niet 100% correct, maar het geeft wel een idee van het examen.

  1. Aantal meer theorie-gerichte vragen.
    1. 4 Juist/fout vragen.
      • E(X) is gelijk aan het gemiddelde bij toevalsvariabelen (exacte verwoording weet ik niet meer).
    2. Bewijzen over lineaire combinaties en transformaties analoog aan de voorbeelden in de slides.
    3. Er worden onderdelen verkocht in batches van 20. Er is 70% kans dat er geen defect onderdeel is in de batch, 20% kans dat er 1 defect onderdeel is en 10% kans dat er 2 defecte onderdelen zijn.
      • Er is 1 defect onderdeel in een batch: hoe groot is de kans dat dit defect onderdeel gevonden wordt bij het controleren van 2 onderdelen?
      • 2 andere deelvragen over kansen op defecte onderdelen.
    4. 2 histogrammen gegeven met kansen op de y-as en waarden op de x-as. Histogram A: 0: kans van 0.2; 1: kans van 0.4; 2: kans van 0.1; 3: kans van 0.2; 4: kans van 0.1. Histogram B: 0: kans van 0.25, 1; kans van 0.75.
      • Deelvragen over verwachtingswaardes en varianties bij optellen en vermenigvuldigen van de verdelingen.
  2. Iemand mag op kerstmis 10 keer met een dobbelsteen gooien, voor elke 6 krijgt hij een pakje.
    1. Hoe groot is de kans dat hij geen pakjes krijgt.
    2. Hoe groot is de kans dat hij meer dan 3 pakjes krijgt.
    3. Bereken de vorige vraag ook benaderend en is deze benadering goed?
    4. Ze doen dit meerdere jaren en hij mag in totaal 360 keer met de dobbelsteen gooien. Hoe groot is de kans dat hij meer dan 55 pakjes krijgt?
    5. Nog andere, kleinere deelvraagjes.
  3. Tabel met 10 hersenvolumes op 25 jaar en 10 hersenvolumes op 50 jaar. Ook output van R gegeven met de t-waarde, p-waarde en df weggedaan. De alternatieve hypothese stond ook in de R output.
    1. Wat is de hypothese en welke veronderstellingen worden er gemaakt? (Vergelijken van 2 gemiddeldes)
    2. Geef de teststatistiek en verdeling.
    3. Vul de t-waarde, p-waarde en df aan.
    4. Deelvraag met nog meer R output.
  4. Iemand zegt dat zijn dobbelsteen niet eerlijk is, er is een tabel met 100 worpen en de frequentie van 1,2,3,4,5 en 6 gegeven.
    1. Wat is de hypothese, teststatistiek, p-waarde,...
    2. Tabel met andere frequenties die iets beter verdeeld waren. Zeg welke impact dit heeft op de p-waarde zonder iets uit te rekenen.
  5. Professor wilt zien of er een verband is tussen examens en proefexamens. Tabel met scores op examens en proefexamens, s-waardes, gemiddeldes,... gegeven.
    1. Stel de regressierechte op.
    2. Bereken de schatter voor de standaardafwijking van de fouten.
    3. Is het een goed model (dit moest je ook aantonen met een test denk ik.)
    4. R^2 = 0.8275: wat zegt dit over de kwaliteit van het model?

Academiejaar 2015-2016

25 januari 2016 (VM)

Hier missen nog bijna gegarandeerd enkele deelvraagjes, dus als je dit examen ook gemaakt hebt (en je weet er nog iets van), vul dan aan a.u.b.

  1. Enkele vragen i.v.m. verdelingen, hun kenmerken, proporties en kansen.
    1. Zij (X, Y) een bivariate normaalverdeling met mu = (2, 2) en sigma = ((1, 0.4), (0.4, 1)). Is dan Var(2X - Y) = 3.4?
    2. Zij X een continu verdeelde variabele met frequentie f(x). Zij a en b reëele getallen, bewijs dan dat:
      • E(a + bX) = a + b*E(X)
      • Var(a + bX) = b^2 * E(X)
    3. We hebben thuis een alarm geïnstalleerd. Bij inbraak gaat het met 96% zekerheid af, maar op andere nachten is er ook een kans van 0.3% dat het afgaat vanwege storingen. In onze buurt is er een kans van 3% dat er op een gegeven nacht in een gegeven huis wordt ingebroken. Vannacht gaat het alarm af, hoe groot is de kans dat er werkelijk een inbraak is?
    4. Gegeven: een 2x3 relatieve frequentietabel. Aan de ene kant: mannen en vrouwen, aan de andere kant of de groep een slecht, middelmatig of goed oriëntatievermogen heeft. Rij van de mannen = (1/10, 1/20, 1/2), rij van de vrouwen = (1/5, 1/10, 1/20). Waar of fout:
      • De kans dat een willekeurige vrouw een goed oriëntatievermogen heeft is 1/7.
      • De verwachte waarde voor mannen en vrouwen zijn gelijk.
  2. Gegeven: de gemiddelde Belgische vrouw heeft een lengte van 168.1cm, met een standaardafwijking van 5.3cm.
    1. Clara is 180.3cm groot. Hoeveel percent van de Belgische vrouwen is kleiner dan Clara?
    2. Stella is kleiner dan 95% van de Belgische vrouwen. Wat is haar maximale hoogte?
    3. Hier aan de faculteit zijn er 354 vrouwen. Hoe groot is de kans dat exact twee vrouwen kleiner zijn dan haar (neem hiervoor Stellas maximale mogelijke lengte). Bereken deze exact.
    4. Bereken de kans op benaderende wijze. Is dit een goede benadering?
  3. Gegeven: de uitslagen van de verkiezingen van mei 2014 en een peiling van 2013. Beiden zijn lijsten van zeven partijen en "Overige", elk met een corresponderend percentage. Bepaal op significantieniveau 0.05 of deze peiling de verkiezingsresultaten kan voorstellen.
    1. Kies gepaste hypothesen voor je test uit te voeren.
    2. Geef de teststatistiek, verdeling en testwaarde van je test.
    3. Geef de P-waarde.
    4. Vorm een besluit.
  4. In een fabriek worden er dagelijks 5000 dozen pralines geproduceerd. Elke doos beweert 250g te wegen. Een nieuwe kwaliteitscontroleur ("een jonge snaak" zoals zij het verwoordden) neemt op een dag lukraak 20 dozen uit de productie voor inspectie. Het gemiddelde van deze steekproef is 243.7g met een variantie van 6.91 g^2. Test op significantieniveau 0.05 of de fabriek systematisch te lichte dozen maakt.
    1. Kies gepaste hypothesen voor je test uit te voeren.
    2. Geef de teststatistiek, verdeling en testwaarde van je test.
    3. Geef de P-waarde.
    4. Vorm een besluit.
    5. Geef het 95%-betrouwbaarheidsinterval voor het gemiddelde van de dagproductie. Geef de definitie van het 95%-betrouwbaarheidsinterval en leg uit wat dit concreet betekent in deze situatie.
    6. Leg uit wat een type-I en type-II fout concreet betekenen in deze situatie.
  5. Gegeven: output van summary en anova in R.
    1. Vul aan: SSM, MSM, MSE, F-waarde, P(F > f) en voor de slope: t-waarde en P(T > t).
    2. Voer een hypothesetest uit omtrent H0: alfa = 0 versus H1: alfa != 0
    3. Geef de regressierechte.
    4. Geef R^2 en leg uit wat deze waarde betekent.

Academiejaar 2012-2013

18 januari 2013 (VM)

Dit is wat ik er mij nog van herinner, de vragen zijn dus niet precies dezelfde.

  1. Thomas Van Den Spiegel is 214 cm groot. Leg uit hoe men kan bepalen hoe groot (of hoe normaal) dit is.
  2. Gegeven een tabel met daarin de absolute frequenties van een steekproef naar het spijbelgedrag van leerlingen uit het ASO, BSO en TSO: nooit, soms, vaak. Dit is dus een 3x3 tabel.
    • Test: meer dan 50% van de leerlingen uit het ASO spijbelt nooit.
      • Geef H0.
      • Geef de teststatistiek onder H0 en de testwaarde.
      • Geef de P-waarde.
      • Besluit.
    • Ga na of er een verband is tussen de waarden.
      • Geef H0.
      • Geef de teststatistiek onder H0 en de testwaarde.
      • Geef de P-waarde.
      • Besluit.
      •  ???
  3. Gegeven de functie als en anders 0. Deze stelt de tijd voor die ik nodig heb om op mijn werk te geraken.
    • Ik moet om 9u op mijn werk zijn, wat is de kans dat ik te laat kom als ik om 7u40 vertrek?
    • Over 200 dagen gezien als ik opnieuw om 7u40 vertrek: wat is de kans dat ik hoogstens 20 keer op die 200 dagen te laat kom?
  4. Voor een nieuw soort roomijs hebben 9 mensen geproefd en een score tussen 1 en 20 (kan ook tussen 0 en 20 zijn, ik hoop van niet). Er waren 2 scores onder 10 en 7 scores boven 10.
    • Bepaal met een teststatistiek of het ijs lekker is (dus een score groter dan 10).
      • Geef H0.
      • Geef de teststatistiek onder H0 en de testwaarde.
      • Geef de P-waarde.
      • Besluit.
    • Wat is het 95% betrouwbaarheidsinterval van de mediaan? Wat betekent dit interval concreet voor dit voorbeeld?
  5. Een lineair verband tussen de maandelijkse productie van windmolens en de hoeveelheid wind, gezien over 32 maanden. Gegeven de output van de lm-functie uit R, een paar Shapiro-Wilk tests, enkele QQ-plots en de residuplot.
    •  ???
    •  ???
    • Is het een goed model? (of zoiets)
    • Vul de ANOVA tabel in (enkel 1 en F zijn gegeven).
    • Wat betekent Std. Error in die lm-functie?