Data mining

Ga naar: navigatie, zoeken

Het vak bestaat uit 2 delen, van 2 proffen: Luc Dehaspe en Marc Van Hulle.

Voor het 2de deel, zie ook: http://simone.neuro.kuleuven.be/

Examen bestaat ook uit 2 delen, van elke prof:

  1. (50%): 1 grote vraag(30%): begrijp en pas algoritme toe, 2 kleinere vragen(2*10%): leg concept uit, bereken model kwaliteit, ...
  2. (50%): 2 vragen; 1 theorie vraag en 1 case study (pas DM process toe)

Er zit een duidelijk patroon in de examenvragen !

Vragen

2005-06-13

Deel 1: 1) Een databank met 9 miljoen echte transacties en 1 miljoen artificiële transacties die elk het NULL-item bevatten (ik vond het niet echt duidelijk of het enkel en alleen null was dat die transacties hadden of niet, dus maar alle2 geschetst)

  1. Bij toepassing van algo uit apriori-familie (zonder data cleaning te doen)::Gaat het resultaat beïnvloedt worden door die NULL? Kan je dit eventueel zien in ("intermediate") results?
  2. Bespreek hoe performantie bij gewone Apriori wordt beïnvloedt
  3. Bespreek hoe performantie bij AprioriTid wordt beïnvloedt
  4. AprioriHybrid: wnn switchen? en waarom?

2) Bespreek kort en bondig OLAP-operations

3) gegeven zo'n play tennis tabel
C1: IF temperature = mild THEN play = yes ELSE play = no
C2: (weet ik nie meer, maar nie ingewikkelder dan vorige)
- confusion matrix
- Accuracy
- Recall
- Precision
- FPR
- Profit b(y,+) = 10, rest = 1

Deel 2: 1)

  • kNN en DT: classificatie of clustering?
  • Bespreek decision boundaries van kNN en DT
  • Hoe optimale k bepalen voor kNN?

2) Case study: gegeven een verhaaltje :-)
Bespreken van pre-processing steps, transformation...
2 technieken aanhalen (en bespreken) om te "data mining" waarvan 1 == NN.


2006-06-12

Proffen waren het allebij vergeten, maar Anneleentje loste alles mooi op : )

Deel1
Vraag1(30%)

  1. Apriori voor vinden van large datasets. Naief is traag. Hoe gebruikt Apriori overlappende informatie van verschillende itemsets. Leg uit met volgend voorbeeld: itemsets {BCW,BFD,CFW,CFD} en voorbeeld BCFWDTIAS. Vervolgens een overduidelijke hint met volgende woorden: een hash bucket size van 2.
  2. Winepi voor patronen in sequences. Hoe gaat Winepi met overlapping om. Sequence 'AABBXXA', window=4. Leg uit voor parallel patroon: AB.
  3. (Ben ik een stuk vraag vergeten ?)

Vraag2(10%)
Wat zijn de OLAP operations die een hierarchische structuur gebruiken (ofzoiets)

Vraag3(10%)
gegeven zo'n play tennis tabel
C1: IF temperature = Hot THEN play = no ELSE play = yes
C2: IF attribute = Value THEN play = yes ELSE play = no
- confusion matrix
- Accuracy
- Recall
- Precision
- FPR
- Profit met FP cost = 10, rest = 1

Deel2
Vraag1

  1. Leg kort de werking van Decision Tree Learning en k Nearest Neighbours uit.
  2. Wat is het verschil in decision boundary van beide technieken (anders geformuleerd)
  3. Hoe kan je met een attribuut met een coninue waarde overweg bij Decision Tree Learning
  4. Overfitting bij decision trees:
    • Wat is het effect van overfitting voor de descriptiviteit van decision trees.
    • Hoe kan overfitting beperkt worden ?

Vraag2: Case Study
Financiele institutie met persoonlijke gegevens (account nr, age, sex(Y/N), nr children, income, ...) en informatie over welke producten de klant heeft.
12% van de klanten hebben een credit kaart en dit moet 20% worden. Er gaat een actie komen, maar ideaal is om 20% of meer klanten met een credit kaart te hebben (geen 50% dus). Hoe kunnen de gegevens gebruikt worden om dit te bereiken.