Text - based information retrieval

Ga naar: navigatie, zoeken

Samenvattingen

Klik hier om de samenvattingen te bekijken

Informatie over het examen

Het examen bestaat uit 2 delen:

  1. schriftelijk, open boek: oefening vragen
  2. mondeling, gesloten boek: theorie vragen

Hierna kan men de theorie vragen gaan bespreken bij de professor. Hier is ze heel vriendelijk bij, en stelt hier en daar nog een bijvraag. Na de theorie, bespreekt ze nog even het practicum (paper of programmeeropdracht)

Examenvragen

Check ook de VTK-wiki en zelfs de Ekowiki voor extra oude examenvragen.

03/06/2016 (Namiddag)

  • Doe 1 stapje van het HITS algoritme (gegeven: Vector met 4 getallen en een 4x4 Matrix voor connecties)
  • Doe 2 stappen van BiLDA (+ leg uit) (gegeven: Documenten van 2 tot 4 woorden en initiële topic assignment per woord)
  • Wat is IDF voor een woord dat in alle documenten voorkomt (+ leg uit)
  • Wat is IDR (+ leg uit)
  • PageRank vs Hits - Geef een nadeel van Hits

Spoilers:

IDF = Inverse Document Frequency, IDR = Inverse Document Rating (log N/ni --met N aantal docs en ni aantal docs waar woord i in voor komt, dus als het in alle docs voorkomt log(1)=0)

03/06/2016 (ochtend)

  1. Theorie
    • Relevance feedback
      1. Definieer relevance feedback en query expansion.
      2. Wat is het verschil tussen relevance feedback en query expansion?
      3. Wat is pseudo-relevance en implicit relevance + waarom is dit belangrijk in Information Retrieval (IR)?
      4. Waarom zetten commerciële browsers gewoonlijk geen (explicit) relevance feedback?
    • PageRank vs Hits
      1. Leg PageRank en Hits kort uit
      2. Stel een bedrijf heeft een profiel per gebruiker met enkele keywords, hoe kan je deze gebruiken om een van beide algoritmen uit te breiden/te verbeteren?
  2. Oefeningen
    • Inference Networks
      1. Maak een inference network van 3 documenten (met een afbeelding als referentie, zonder getallen of gewichten op)
      2. Geef de relevance van D3 voor een query (OR en AND)
      3. Stel (reeks gegeven gewichten), bereken nu de relevance voor beide queries
    • Clustering
      1. Gegeven: 6 zinnen/documenten en 9 topic words
      2. Cluster volgend agglomerate clustering met average.
      3. Hoe bereken je het beste aantal clusters met agglomerate?
    • Aritmic vs Harmonic mean (formules gegevens op examen)
      1. Geef een argument waarom Harmonic Mean (2*Recall*Precision/(Recall+Precision) beter is dan Aritmic Mean ((Recall + precision) / 2)
      2. Pas de formule van Harmonic Mean aan zodat de recall 2x zo belangrijk wordt.

19/06/2012

  1. theorie:
    • uitbreidingen van vector space model bespreken die correlatie tussen termen mee in rekening brengen
    • beschrijf een hierarchisch algoritme om een gebruiker visueel een collectie te doorbladeren (hierbij wou de prof bv. scatter/gather algoritme)
    • leg probabilistic language model uit voor unigram word representatie
    • waarom is lengte normalizatie nuttig bij document indexering representaties? Hoe gebeurt dit in een vector space model en in een probabilistic model?
  2. oefeningen:
    • gegeven 2 documenten bestaande uit 1 zin. Stel hiervan het inference network op. Documenten rangschikken gegeven een bepaalde query (een keer een query met AND, andere keer met ",").
    • wanneer zijn micro and macro averaging aan elkaar gelijk?
    • hoeveel verschillende clusters zijn er mogelijk voor N documenten en K clusters?
    • Een objective function in clustering is om de afstand tussen cluster en centroid te minimaliseren. Definieer 2 andere objective functions.
    • Gegeven een grafiek van score F1 (harmonic mean) en F2 (arithmetic mean) tov precision. Geef argument waarom F1 toch superieur is aan F2. Soms is recall dubbel zo belangrijk, vervang dit in F1 (deze laatste is inderdaad maar een rare vraag...)


08/06/2012

  1. theorie:
    • waarom is LDA beter dan LSI?
    • maak een probabilistisch retrieval model voor documenten die bestaan uit afbeeldingen en tweets (1 van elk per document), gegeven dat ge een tool hebt die de kans geeft dat een foto of tweet een engels woord bevat/het object van dat woord bevat in het geval van de foto.
  2. oefeningen:
    • Pagerank vs hits
    • interpolated en average interpolated precision
    • iets wat ik mij niet meer herinner, mogelijk iets met word sense disambiguation


25/08/2006

  1. Oefening: gegeven een 5x5 dissimilariteit matrix P, waarbij P(2,3) = P(3,4) = 3
    • Bereken en teken dendrogrammen (a) voor single linkage, b) complete linkage met P(2,3) eerst behandelenen en c) complete linkage met P(3,4) eerst)
    • Becommentarieer de dendrogrammen
    • Gebruik een gepast algoritme om 2 clusters te maken, rekening houdend met de beperkte tijd van het examen
    • Indien het 3de puntje opgelost was door het creëren van een thesaurus. Welke zouden dan de thesaurus klasse termen zijn?
  2. Theorie:

I. Gegeven dat de politie een nieuwe state-of-the-art tool wil kopen om in nieuwsartikels en politierapporten te zoeken. Welke technologieen zou je nodig hebben om het beste te kunnen zoeken op:

1) Verschillende spelling van namen van delinquenten
2) Leden van bendes
3) Aliassen van delinquenten
4) Verbanden tussen namen van delinquenten en gebruikte vluchtauto's

Geef ook de voor- en nadelen van de methodes.

II. Wat is query expansion? Waarvoor wordt het gebruikt? Voordelen? Nadelen? Wat gebeurt er met precision en recall?

  1. Paper: geen vragen

23/06/2006

  1. Oefening:
    • Gegeven: 2 teksten (2 zinnen eerder)
    • Gevraagd:
      1. Stel inference netwerk op.
      2. Stel query netwerk op van de 2 termen "virus" en "outbreak"
      3. Rangschik de documenten voor de AND query van deze 2 termen.
      4. Rangschik de documenten voor de OR query van deze 2 termen.
      5. Rangschik de documenten indien 1 van de termen en 1 van de documenten belangrijker is.
  2. Oefening:
    • Gegeven: dissimilsarity matrix van 7 documenten voor het woord "star"
    • Gevraagd:
      1. Zoek de verschillende betekenissen. (cluster de documenten)
      2. Hoe zou je de oplossingen vergelijken indien een expert je de juiste oplossingen zou geven? (Vilain, B-CUBED)
  3. Theorie:
    • Leg HITS en PageRank uit.
    • Hoe zou men deze algoritmes kunnen gebruiken bij text summarization?
    • Hoe zou je die methode aanpassen voor topic general summaries of specific summaries?
  4. Theorie: Wat is co-training?

pre 2006

  1. Oefening: gegeven dissimilariteit matrix.
    • Bereken en teken dendogrammen.
    • Becommentarieer de dendogrammen.
    • (?)
    • Gebruik een gepast algoritme om 2 clusters te maken, rekening houdend met de beperkte tijd van het examen
    • Indien het 4de puntje opgelost was door het creëren van een thesaurus. Welke zouden dan de thesaurus klasse termen zijn?
  2. Theorie: Word sense disambiguation.
  3. Paper: 'daar heb ik eigenlijk geen vragen over, dat was in orde' ;)