Data mining

Ga naar: navigatie, zoeken

Samenvattingen

Klik hier om de samenvattingen te bekijken

Informatie over het examen

Het vak bestaat uit 2 delen, van 2 proffen: Luc Dehaspe en Marc Van Hulle.

Voor het 2de deel, zie ook: http://simone.neuro.kuleuven.be/

Examen bestaat ook uit 2 delen, van elke prof:

  1. (50%): 1 grote vraag(30%): begrijp en pas algoritme toe, 2 kleinere vragen(2*10%): leg concept uit, bereken model kwaliteit, ...
  2. (50%): 2 vragen; 1 theorie vraag en 1 case study (pas DM process toe)

Er zit een duidelijk patroon in de examenvragen !

Examenvragen

2015-05-19

1. collaborative filtering is used for comparison of users (Pearson correlation). Can this also be used to compare items? If so, how, if not, why?

2. items { A, B, C, D, E, F, H, I, J } given. List of frequent closed itemsets. Give all frequent items and there support count. Circle all the frequent maximal itemsets. ex supp(A)=150 , supp(D) =90 , supp(E)=100, supp(CE)=60, supp(IJ)=45, supp(DEH)=50, supp(ABC)=40

3. given database. Compute AVC tables for each attribute

4. give connection and diffence between k-means and EM clustering

   1. give freature .. {(3,-1,2),(4,-2,2),(3,-1,1)}

5. give <f> projection PrefixSpan from database with min support count 2

6. apriori on database. List all frequent items with support

7. FP trees, AVC and cluster features support same. What is big difference of FP trees with the rest

8. Training set from unpresentative data. Which is better: naive bayes or decision tree

9. Given table of transaction sequences (you have to sort it). compute support count of A(BC) and B

10. some question with probabilities and then questions about self training and uncertainty sampling

2009-08-19

Deel 1

__ A B C D
t1 1 1 0 1
t2 1 0 1 1
t3 1 1 1 0
t4 0 1 0 1

  1. Pas FP growth toe, en geef bij elke stap de header en de FP-tree
  2. Hoe kan je uit het resultaat van de vorige vraag berekenen hoeveel patterns apriori gaat evalueren
  3. Vergelijk FP met apriori, welke patterns worden bij het een wel geevalueerd, en bij het andere niet


A -> B
__-> C

is een negatieve border Geef de parallele, seriële, en non-injectieve items die hierdoor afgebakend worden

Deel 2

  1. Case study over telecom bedrijf. gegevens over klanten (leeftijd kinderen, gehuwd,...) gegevens over welke films ze kijken en wanneer, en gegevens over welke sites ze bezoeken en wanneer. Ze willen klanten die ze denken dat veel films gaan bestellen een gratis installatie geven. Hoe kunnen ze dit te weten komen.
  2. vraag 2
  3. vraag 3

2007-06-20

Deel 1

  1. A priori bestaat uit twee delen: het zoeken van grote itemsets en het genereren van association rules.
    1. Als je bezorgd bent om de load bij meer market baskets, welk deel geeft dan het meeste problemen en waarom?
    2. Leg het genereren van regels uit en illustreer (fase/stap 2 van apriori).
    3. Leg uit waarom de gevonden regels ALLEEN diegene zijn die voldoen aan gegeven support & confidence.
    4. Leg uit waarom de gevonden regels ALLE regels zijn die voldoen aan gegeven support & confidence.
  2. In een datacube zijn er aggregate functions in twee smaken (data cube measures): holistic en distributive. Leg uit en geef een voorbeeld. Welke is eenvoudiger te berekenen?
  3. Een ordinaire play-tennis-vraag, met alle kleine berekeningetjes en een kost.

Deel 2

    1. Er zijn 7 continue gegevens en 3 discrete. Een topographic map bestaat uit een 5x5-rooster van neuronen. De continue gegevens zijn de input. Wat is de dimensie van de weight vector van iedere neuron?
    2. Op wat slaat de 'topographic' in topographic maps?
    3. Leg de SOM learning rule uit in je eigen woorden.
    4. Leg uit hoe topographic maps kunnen gebruikt worden bij het invullen van ontbrekende data.
  1. Case study over een bank waar 12% een creditkaart heeft. Uit commerciële interesse wil de bank dit optrekken naar 20%. Daarom houden ze het een maand gratis om een credit kaart te nemen. Toch willen ze niet iedereen attent maken op deze actie, want als 50% een creditkaart heeft (dat kost wat voor de bank) is dat niet interessant meer voor de bank om te doen. De bank heef een databank met verschillende gegevens zoals rekeningnummer, aantal kinderen, inkomen, de bank-dingen die de klant bezig (rekeningen, kaarten...) Wat moet de bank doen om de juiste klanten te bereiken?

2006-06-12

Deel1
Vraag1(30%)

  1. Apriori voor vinden van large datasets. Naief is traag. Hoe gebruikt Apriori overlappende informatie van verschillende itemsets. Leg uit met volgend voorbeeld: itemsets {BCW,BFD,CFW,CFD} en voorbeeld BCFWDTIAS. Vervolgens een overduidelijke hint met volgende woorden: een hash bucket size van 2.
  2. Winepi voor patronen in sequences. Hoe gaat Winepi met overlapping om. Sequence 'AABBXXA', window=4. Leg uit voor parallel patroon: AB.
  3. (Ben ik een stuk vraag vergeten ?)

Vraag2(10%)
Wat zijn de OLAP operations die een hierarchische structuur gebruiken (ofzoiets)

Vraag3(10%)
gegeven zo'n play tennis tabel
C1: IF temperature = Hot THEN play = no ELSE play = yes
C2: IF attribute = Value THEN play = yes ELSE play = no
- confusion matrix
- Accuracy
- Recall
- Precision
- FPR
- Profit met FP cost = 10, rest = 1

Deel2
Vraag1

  1. Leg kort de werking van Decision Tree Learning en k Nearest Neighbours uit.
  2. Wat is het verschil in decision boundary van beide technieken (anders geformuleerd)
  3. Hoe kan je met een attribuut met een coninue waarde overweg bij Decision Tree Learning
  4. Overfitting bij decision trees:
    • Wat is het effect van overfitting voor de descriptiviteit van decision trees.
    • Hoe kan overfitting beperkt worden ?

Vraag2: Case Study
Financiele institutie met persoonlijke gegevens (account nr, age, sex(Y/N), nr children, income, ...) en informatie over welke producten de klant heeft.
12% van de klanten hebben een credit kaart en dit moet 20% worden. Er gaat een actie komen, maar ideaal is om 20% of meer klanten met een credit kaart te hebben (geen 50% dus). Hoe kunnen de gegevens gebruikt worden om dit te bereiken.

2005-06-13

Deel 1: 1) Een databank met 9 miljoen echte transacties en 1 miljoen artificiële transacties die elk het NULL-item bevatten (ik vond het niet echt duidelijk of het enkel en alleen null was dat die transacties hadden of niet, dus maar alle2 geschetst)

  1. Bij toepassing van algo uit apriori-familie (zonder data cleaning te doen)::Gaat het resultaat beïnvloedt worden door die NULL? Kan je dit eventueel zien in ("intermediate") results?
  2. Bespreek hoe performantie bij gewone Apriori wordt beïnvloedt
  3. Bespreek hoe performantie bij AprioriTid wordt beïnvloedt
  4. AprioriHybrid: wnn switchen? en waarom?

2) Bespreek kort en bondig OLAP-operations

3) gegeven zo'n play tennis tabel
C1: IF temperature = mild THEN play = yes ELSE play = no
C2: (weet ik nie meer, maar nie ingewikkelder dan vorige)
- confusion matrix
- Accuracy
- Recall
- Precision
- FPR
- Profit b(y,+) = 10, rest = 1

Deel 2: 1)

  • kNN en DT: classificatie of clustering?
  • Bespreek decision boundaries van kNN en DT
  • Hoe optimale k bepalen voor kNN?

2) Case study: gegeven een verhaaltje :-)
Bespreken van pre-processing steps, transformation...
2 technieken aanhalen (en bespreken) om te "data mining" waarvan 1 == NN.