Figur 2
Bakgrunn for prosjektet ’Temabasert informasjonsfiltrering’.
Prototyp fra mai 2000 utvidet med grammatikalsk informasjon. Presentert ved IPSI i Darmstadt og FU-Berlin i juni 2000 og senere inkludert i prosjektsøknad til Meltzer-fondet.
Partiprogram fra 1993 og 1997 (13 program tilgjengelig fra NSD) er tekstrenset, segmentert og prosessert i CG- taggeren for bokmål. Et subsett av den grammatikalske informasjonen er ekstrahert og konvertert til et sett koder som ble lagt inn i systemfilene til ATLASti (med tillatelse fra Scientific Software Development, Berlin). Tekstpanelet viser en testtekst hentet fra et partiprogram, mest sannsynlig AP grunnet den hyppige frekvensen av 'vi', ellers er ordet 'samråderett' en typisk indikator for AP.
Panelet til høyre viser subsettet av koder som angår den grammatikalske klassen substantiv. Forskeren kan selv regulere hvilke koder som skal vises (eller om egne kommentarer skal vises i dette panelet).
Søkevinduet nederst til høyre viser et aktivt søkeutsagn (enkel med to søkeoperander bundet sammen av operatoren AND) som henter frem alle ordforekomster grammatikkparseren har klassifisert som substantiv og som har den syntaktiske rollen subjekt.
Dersom denne søkemakroen utvides med [WITHIN Sentence), vil hele setningen blir vist frem med fargen blå i tekstpanelet.
Gjennom selv enkle søkeutsagn som dette, er det mulig for forskerer å danne seg et inntrykk av tekstens tematiske profil. Under dette settet av grammatikalske koder, ligger et annet sett med tematiske koder som er tilordnet som resultat av en kvalitativ analyse. Det kombinerte datasettet gir rikere muligheter for å konstruere søkemakroer som både drar nytte av grammatikalsk informasjon og tematiske koder som forskeren har valgt å annotere teksene med.
Etter diskusjoner med forskere ved FU-Berlin i juni 2000, kom vi frem til at det var verd å videreutvikle prototypen til å også inneholde et kodesett konsolidert over ordenes lemmaformer.
graphic