En ny versjon av prototypen fra 1999 forelå som førsteversjon i mai 2000, se figur
2
i
vedlagte figursamling.
Tekstene var annoterte med et subsett av grammatikalsk informasjon generert av
såkalte POS-taggere (Part-Of- Speech). Spesialiserte ekstraheringsprosedyrer
omformet output fra POS-taggere til et kodesystem som ble realisert i programvaren
ATLASti. Gjennom dette kodesystemet fikk en forsker tilgang til en ny type støtteredskap
ved gjennomføring av tekstanalyse. Både engelskspråklige og norskspråklige tekster var
samtidig tilgjengelig gjennom et felles kodesystem som integrerte systeminterne koder
(grammatikktagger) levert av den såkalte Oslo- Bergen taggeren og frivaren 'Brill's
tagger'. Avbildinger av denne prototypløsningen var inkludert i Meltzersøknaden fra 2000.
Sommeren 2000 fikk jeg anledning til å demonstrere både prototypen fra 1999 og den
nye versjonen fra mai 2000 til forskere ved GMD - Integrated Publication and Information
Systems Institute (IPSI) i Darmstadt. En av forskningslederne ved IPSI anbefalte å prøve
resultatene i en patentsøknadsprosess. Anbefalingen ble fulgt opp gjennom kontakt med
Forinnova AS i september 2000.
En etterfølgende oppfinneravtale angikk strukturene for organisering av tekstens
tematiske indikatorer i fasetter, generering av tematiske tekstsoner, søkemakroer ordnet
i semantiske nettverk som gir fleksible muligheter for tekstreduksjon (en form for
dynamisk generering av ulike sammendrag over samme tekst) og i henhold til brukerens
søkemål (søkemål er de verbaliserte delene av informasjonsbehov), samt et spesialisert
fremvisningsenhet (søkegrensesnitt) som følger denne fasettstrukturen. Spesifikasjoner
for prosedyrene som genererer tekstreduksjoner i henhold til en strategi benevnt som
‘Innside-Ut-Navigering’ var fullført i januar 2002 (Delprosjekt 2), se
Status for Delprosjekt
2 i denne rapporten.
Prosjektsøknaden til Meltzer i 2000 angikk å lage nye forskningsorienterte redskap
for
forskere innen ulike disipliner (Delprosjekt 1). Målsettingen ble definert på grunnlag av
samtaler med forskere ved IPSI, nærmere bestemt hvordan redskap for moderne
tekstanalyse kan forbedres ved å inkorporere flere typer av informasjon om
tekstinnholdet. Informasjon om tekstinnholdet kan tilveiebringes gjennom anvendelse av
eksisterende teknologi, f eks grammatikktaggere og programvare som utfører
kvantitativ/statistisk prosessering av tekster (tekstmetrikk).
Via IPSI fikk jeg tilgang til en eksperimentell programvaren TATOE (Text Analysis
Tool
with Object Encoding) som er utformet med tanke på å støtte tekstanalyse der tekstene
er annotert via grammatikktaggeren MORPHY. På basis av erfaringene ervervet
gjennom bruk av TATOE ble prototypen justert slik at det var mulig for forskere å arbeide
mot lemmaformer – en viktig strategi for datareduksjon.
TATOE forutsetter at forskerne har kompetanse om grammatikk ved at søkeutsagn
måtte formuleres i henhold til grammatikalske regler for gyldige setninger (i
grammatikalsk forstand). Prototypen fra 1999 var fundert på at brukere skulle kunne
anvende søkemakroer uten å ha kunnskap om syntaktiske regler for konstruksjon av
søkemakroer. Prototypen fra mai 2000 var basert på tilsvarende prinsipp - den
grammatikalske informasjonen skulle kunne anvendes uten detaljkunnskap om
grammatikk.
Kodesystemet i 2000-versjonen var imidlertid slik at det var mulig å spesifisere
avanserte søkemønstre dersom en forsker vurderer dette som formålstjenelig i forhold til
faglige problemstillinger. I prosjektets løsningsforslag er det vektlagt å navngi
søkemakroene i henhold til hvilken tekstfiltrering de foretar. Systemets søkeselektivitet,
dvs detaljene i tekstrepresentasjonene, skal så vidt mulig ‘holdes i bakgrunnen’ fordi
disse angår et systemperspektiv og ikke er brukerorientert perspektiv.
På basis av tilgangen til MORPHY kunne prototypen utvides til også å inkludere tyske
tekster. Dermed forelå det muligheter for å kunne analysere f eks forekomster av
mønster i tekstene uavhengig av om tekstene var norsk-, engelsk- eller tyskspråklige.
Visse generelle søkemakroer inkluderte justerbare distanseoperatorer slik at velkjente
mønstre rapportert innen fageltet IE (Information Extraction) fungerte over
nyhetsmeldinger. Problemstillinger, teori og metode som lå til grunn for utviklingen av
1999-versjonen og 2000-versjonen av prototyper var inkludert i prosjektbeskrivelsen for
prosjektet 'Temabasert informasjonsfiltrering'.
Dette er foranledningen til at prototypen som ble videreutviklet i Delprosjekt 1
konsoliderer de grammatikalske kodene i forhold til ordtypenes lemmaform, men slik at
den autentiske kildeteksten blir vist frem ved en aktivering av kodene. Fordi
prosesseringen av de underliggende filene i PROLOG ble relativt ressurskrevende
(prosesseringstid), var konklusjonen at løsningen måtte reimplementeres i en XML-
basert løsning og administrert i DBMS. Gjennom en XML-basert løsning viste en
pilotstudie muligheten for å kunne tilby en nettbasert tjeneste for prosessering og
tilrettelegging av tekster som forskere inkluderer i sine prosjekt.