Prototyp fra 2000 med aksess til grammatikalsk informasjon
En ny versjon av prototypen fra 1999 forelå som førsteversjon i mai 2000, se figur 2 i vedlagte figursamling.
Tekstene var annoterte med et subsett av grammatikalsk informasjon generert av såkalte POS-taggere (Part-Of- Speech). Spesialiserte ekstraheringsprosedyrer omformet output fra POS-taggere til et kodesystem som ble realisert i programvaren ATLASti. Gjennom dette kodesystemet fikk en forsker tilgang til en ny type støtteredskap ved gjennomføring av tekstanalyse. Både engelskspråklige og norskspråklige tekster var samtidig tilgjengelig gjennom et felles kodesystem som integrerte systeminterne koder (grammatikktagger) levert av den såkalte Oslo- Bergen taggeren og frivaren 'Brill's tagger'. Avbildinger av denne prototypløsningen var inkludert i Meltzersøknaden fra 2000.
Sommeren 2000 fikk jeg anledning til å demonstrere både prototypen fra 1999 og den nye versjonen fra mai 2000 til forskere ved GMD - Integrated Publication and Information Systems Institute (IPSI) i Darmstadt. En av forskningslederne ved IPSI anbefalte å prøve resultatene i en patentsøknadsprosess. Anbefalingen ble fulgt opp gjennom kontakt med Forinnova AS i september 2000.
En etterfølgende oppfinneravtale angikk strukturene for organisering av tekstens tematiske indikatorer i fasetter, generering av tematiske tekstsoner, søkemakroer ordnet i semantiske nettverk som gir fleksible muligheter for tekstreduksjon (en form for dynamisk generering av ulike sammendrag over samme tekst) og i henhold til brukerens søkemål (søkemål er de verbaliserte delene av informasjonsbehov), samt et spesialisert fremvisningsenhet (søkegrensesnitt) som følger denne fasettstrukturen. Spesifikasjoner for prosedyrene som genererer tekstreduksjoner i henhold til en strategi benevnt som ‘Innside-Ut-Navigering’ var fullført i januar 2002 (Delprosjekt 2), se Status for Delprosjekt 2 i denne rapporten.
Prosjektsøknaden til Meltzer i 2000 angikk å lage nye forskningsorienterte redskap for forskere innen ulike disipliner (Delprosjekt 1). Målsettingen ble definert på grunnlag av samtaler med forskere ved IPSI, nærmere bestemt hvordan redskap for moderne tekstanalyse kan forbedres ved å inkorporere flere typer av informasjon om tekstinnholdet. Informasjon om tekstinnholdet kan tilveiebringes gjennom anvendelse av eksisterende teknologi, f eks grammatikktaggere og programvare som utfører kvantitativ/statistisk prosessering av tekster (tekstmetrikk).
Via IPSI fikk jeg tilgang til en eksperimentell programvaren TATOE (Text Analysis Tool with Object Encoding) som er utformet med tanke på å støtte tekstanalyse der tekstene er annotert via grammatikktaggeren MORPHY. På basis av erfaringene ervervet gjennom bruk av TATOE ble prototypen justert slik at det var mulig for forskere å arbeide mot lemmaformer – en viktig strategi for datareduksjon.
TATOE forutsetter at forskerne har kompetanse om grammatikk ved at søkeutsagn måtte formuleres i henhold til grammatikalske regler for gyldige setninger (i grammatikalsk forstand). Prototypen fra 1999 var fundert på at brukere skulle kunne anvende søkemakroer uten å ha kunnskap om syntaktiske regler for konstruksjon av søkemakroer. Prototypen fra mai 2000 var basert på tilsvarende prinsipp - den grammatikalske informasjonen skulle kunne anvendes uten detaljkunnskap om grammatikk.
Kodesystemet i 2000-versjonen var imidlertid slik at det var mulig å spesifisere avanserte søkemønstre dersom en forsker vurderer dette som formålstjenelig i forhold til faglige problemstillinger. I prosjektets løsningsforslag er det vektlagt å navngi søkemakroene i henhold til hvilken tekstfiltrering de foretar. Systemets søkeselektivitet, dvs detaljene i tekstrepresentasjonene, skal så vidt mulig ‘holdes i bakgrunnen’ fordi disse angår et systemperspektiv og ikke er brukerorientert perspektiv.
På basis av tilgangen til MORPHY kunne prototypen utvides til også å inkludere tyske tekster. Dermed forelå det muligheter for å kunne analysere f eks forekomster av mønster i tekstene uavhengig av om tekstene var norsk-, engelsk- eller tyskspråklige. Visse generelle søkemakroer inkluderte justerbare distanseoperatorer slik at velkjente mønstre rapportert innen fageltet IE (Information Extraction) fungerte over nyhetsmeldinger. Problemstillinger, teori og metode som lå til grunn for utviklingen av 1999-versjonen og 2000-versjonen av prototyper var inkludert i prosjektbeskrivelsen for prosjektet 'Temabasert informasjonsfiltrering'.
Dette er foranledningen til at prototypen som ble videreutviklet i Delprosjekt 1 konsoliderer de grammatikalske kodene i forhold til ordtypenes lemmaform, men slik at den autentiske kildeteksten blir vist frem ved en aktivering av kodene. Fordi prosesseringen av de underliggende filene i PROLOG ble relativt ressurskrevende (prosesseringstid), var konklusjonen at løsningen måtte reimplementeres i en XML- basert løsning og administrert i DBMS. Gjennom en XML-basert løsning viste en pilotstudie muligheten for å kunne tilby en nettbasert tjeneste for prosessering og tilrettelegging av tekster som forskere inkluderer i sine prosjekt.