Bakgrunn for prosjektet ’Temabasert informasjonsfiltrering’.
Prototyp fra mai 2000 utvidet med grammatikalsk informasjon. Presentert ved IPSI i
Darmstadt og FU-Berlin i juni 2000 og senere inkludert i prosjektsøknad til Meltzer-fondet.
Partiprogram fra 1993 og 1997 (13 program tilgjengelig fra NSD) er tekstrenset,
segmentert og prosessert i CG- taggeren for bokmål. Et subsett av den grammatikalske
informasjonen er ekstrahert og konvertert til et sett koder som ble lagt inn i systemfilene
til ATLASti (med tillatelse fra Scientific Software Development, Berlin). Tekstpanelet viser
en testtekst hentet fra et partiprogram, mest sannsynlig AP grunnet den hyppige
frekvensen av 'vi', ellers er ordet 'samråderett' en typisk indikator for AP.
Panelet til høyre viser subsettet av koder som angår den grammatikalske klassen
substantiv. Forskeren kan selv regulere hvilke koder som skal vises (eller om egne
kommentarer skal vises i dette panelet).
Søkevinduet nederst til høyre viser et aktivt søkeutsagn (enkel med to søkeoperander
bundet sammen av operatoren AND) som henter frem alle ordforekomster
grammatikkparseren har klassifisert som substantiv og som har den syntaktiske rollen
subjekt.
Dersom denne søkemakroen utvides med [WITHIN Sentence), vil hele setningen blir vist
frem med fargen blå i tekstpanelet.
Gjennom selv enkle søkeutsagn som dette, er det mulig for forskerer å danne seg et
inntrykk av tekstens tematiske profil. Under dette settet av grammatikalske koder, ligger
et annet sett med tematiske koder som er tilordnet som resultat av en kvalitativ analyse.
Det kombinerte datasettet gir rikere muligheter for å konstruere søkemakroer som både
drar nytte av grammatikalsk informasjon og tematiske koder som forskeren har valgt å
annotere teksene med.
Etter diskusjoner med forskere ved FU-Berlin i juni 2000, kom vi frem til at det var
verd å
videreutvikle prototypen til å også inneholde et kodesett konsolidert over ordenes
lemmaformer.