Data mining: verschil tussen versies

Ga naar: navigatie, zoeken
k (categorien erbij natuurlijk)
(een examen)
Regel 6: Regel 6:
 
#(50%): 1 grote vraag(30%): begrijp en pas algoritme toe, 2 kleinere vragen(2*10%): leg concept uit, bereken model kwaliteit, ...
 
#(50%): 1 grote vraag(30%): begrijp en pas algoritme toe, 2 kleinere vragen(2*10%): leg concept uit, bereken model kwaliteit, ...
 
#(50%): 2 vragen; 1 theorie vraag en 1 case study (pas DM process toe)
 
#(50%): 2 vragen; 1 theorie vraag en 1 case study (pas DM process toe)
 +
 +
== Vragen ==
 +
 +
=== 2005-06-13 ===
 +
Deel 1:
 +
1) Een databank met 9 miljoen echte transacties en 1 miljoen artificiële transacties die elk het NULL-item bevatten (ik vond het niet echt duidelijk of het enkel en alleen null was dat die transacties hadden of niet, dus maar alle2 geschetst)<br>
 +
:# Bij toepassing van algo uit apriori-familie (zonder data cleaning te doen)::Gaat het resultaat beïnvloedt worden door die NULL? Kan je dit eventueel zien in ("intermediate") results?
 +
:# Bespreek hoe performantie bij gewone Apriori wordt beïnvloedt
 +
:# Bespreek hoe performantie bij AprioriTid wordt beïnvloedt
 +
:# AprioriHybrid: wnn switchen? en waarom?
 +
 +
2) Bespreek kort en bondig OLAP-operations
 +
 +
3) gegeven zo'n play tennis tabel<br>
 +
C1: IF temperature = mild THEN play = yes ELSE play = no<br>
 +
C2: (weet ik nie meer, maar nie ingewikkelder dan vorige)<br>
 +
- confusion matrix<br>
 +
- Accuracy<br>
 +
- Recall<br>
 +
- Precision<br>
 +
- FPR<br>
 +
- Profit b(y,+) = 10, rest = 1<br>
 +
 +
Deel 2:
 +
1)
 +
* kNN en DT: classificatie of clustering?
 +
* Bespreek decision boundaries van kNN en DT
 +
* Hoe optimale k bepalen voor kNN?
 +
 +
2) Case study: gegeven een verhaaltje :-)<br>
 +
Bespreken van pre-processing steps, transformation...<br>
 +
2 technieken aanhalen (en bespreken) om te "data mining" waarvan 1 == NN.<br>
 +
  
 
[[Categorie:1li]] [[Categorie:2li]]
 
[[Categorie:1li]] [[Categorie:2li]]

Versie van 12 jun 2006 om 00:24

Het vak bestaat uit 2 delen, van 2 proffen: Luc Dehaspe en Marc Van Hulle.

Voor het 2de deel, zie ook: http://simone.neuro.kuleuven.be/

Examen bestaat ook uit 2 delen, van elke prof:

  1. (50%): 1 grote vraag(30%): begrijp en pas algoritme toe, 2 kleinere vragen(2*10%): leg concept uit, bereken model kwaliteit, ...
  2. (50%): 2 vragen; 1 theorie vraag en 1 case study (pas DM process toe)

Vragen

2005-06-13

Deel 1: 1) Een databank met 9 miljoen echte transacties en 1 miljoen artificiële transacties die elk het NULL-item bevatten (ik vond het niet echt duidelijk of het enkel en alleen null was dat die transacties hadden of niet, dus maar alle2 geschetst)

  1. Bij toepassing van algo uit apriori-familie (zonder data cleaning te doen)::Gaat het resultaat beïnvloedt worden door die NULL? Kan je dit eventueel zien in ("intermediate") results?
  2. Bespreek hoe performantie bij gewone Apriori wordt beïnvloedt
  3. Bespreek hoe performantie bij AprioriTid wordt beïnvloedt
  4. AprioriHybrid: wnn switchen? en waarom?

2) Bespreek kort en bondig OLAP-operations

3) gegeven zo'n play tennis tabel
C1: IF temperature = mild THEN play = yes ELSE play = no
C2: (weet ik nie meer, maar nie ingewikkelder dan vorige)
- confusion matrix
- Accuracy
- Recall
- Precision
- FPR
- Profit b(y,+) = 10, rest = 1

Deel 2: 1)

  • kNN en DT: classificatie of clustering?
  • Bespreek decision boundaries van kNN en DT
  • Hoe optimale k bepalen voor kNN?

2) Case study: gegeven een verhaaltje :-)
Bespreken van pre-processing steps, transformation...
2 technieken aanhalen (en bespreken) om te "data mining" waarvan 1 == NN.