Text - based information retrieval: verschil tussen versies

Ga naar: navigatie, zoeken
k (Beveiligde "Text - based information retrieval" [edit=autoconfirmed:move=autoconfirmed])
(geen verschil)

Versie van 23 mei 2009 om 15:51

Examen

Het examen bestaat uit 2 delen:

  1. schriftelijk, open boek: oefening vragen
  2. mondeling, gesloten boek: theorie vragen

Hierna kan men de theorie vragen gaan bespreken bij de professor. Hier is ze heel vriendelijk bij, en stelt hier en daar nog een bijvraag. Na de theorie, bespreekt ze nog even het practicum (paper of programmeeropdracht)

Examenvragen

25/08/2006

  1. Oefening: gegeven een 5x5 dissimilariteit matrix P, waarbij P(2,3) = P(3,4) = 3
    • Bereken en teken dendrogrammen (a) voor single linkage, b) complete linkage met P(2,3) eerst behandelenen en c) complete linkage met P(3,4) eerst)
    • Becommentarieer de dendrogrammen
    • Gebruik een gepast algoritme om 2 clusters te maken, rekening houdend met de beperkte tijd van het examen
    • Indien het 3de puntje opgelost was door het creëren van een thesaurus. Welke zouden dan de thesaurus klasse termen zijn?
  2. Theorie:

I. Gegeven dat de politie een nieuwe state-of-the-art tool wil kopen om in nieuwsartikels en politierapporten te zoeken. Welke technologieen zou je nodig hebben om het beste te kunnen zoeken op:

1) Verschillende spelling van namen van delinquenten
2) Leden van bendes
3) Aliassen van delinquenten
4) Verbanden tussen namen van delinquenten en gebruikte vluchtauto's

Geef ook de voor- en nadelen van de methodes.

II. Wat is query expansion? Waarvoor wordt het gebruikt? Voordelen? Nadelen? Wat gebeurt er met precision en recall?

  1. Paper: geen vragen

23/06/2006

  1. Oefening:
    • Gegeven: 2 teksten (2 zinnen eerder)
    • Gevraagd:
      1. Stel inference netwerk op.
      2. Stel query netwerk op van de 2 termen "virus" en "outbreak"
      3. Rangschik de documenten voor de AND query van deze 2 termen.
      4. Rangschik de documenten voor de OR query van deze 2 termen.
      5. Rangschik de documenten indien 1 van de termen en 1 van de documenten belangrijker is.
  2. Oefening:
    • Gegeven: dissimilsarity matrix van 7 documenten voor het woord "star"
    • Gevraagd:
      1. Zoek de verschillende betekenissen. (cluster de documenten)
      2. Hoe zou je de oplossingen vergelijken indien een expert je de juiste oplossingen zou geven? (Vilain, B-CUBED)
  3. Theorie:
    • Leg HITS en PageRank uit.
    • Hoe zou men deze algoritmes kunnen gebruiken bij text summarization?
    • Hoe zou je die methode aanpassen voor topic general summaries of specific summaries?
  4. Theorie: Wat is co-training?

pre 2006

  1. Oefening: gegeven dissimilariteit matrix.
    • Bereken en teken dendogrammen.
    • Becommentarieer de dendogrammen.
    • (?)
    • Gebruik een gepast algoritme om 2 clusters te maken, rekening houdend met de beperkte tijd van het examen
    • Indien het 4de puntje opgelost was door het creëren van een thesaurus. Welke zouden dan de thesaurus klasse termen zijn?
  2. Theorie: Word sense disambiguation.
  3. Paper: 'daar heb ik eigenlijk geen vragen over, dat was in orde' ;)