Tekstreduksjoner og fremvisningsenheter
Når fremvisningsenheten er realisert vil en aktivering av et ikon (nå  ## )  vise den aktuelle setning i sin tekstlige kontekst (hvert grensepunkt mellom setninger holder adresseopplysninger som er koblinger mellom tekstreduksjonen og kildefilen, der sistnevnte er lagret eksternt i forhold til den enheten som har mottatt tekstreduksjonen, f eks en pda). Ordtypene som lokaliseres av operandene i søkemakro kan eventuelt markeres med farger – i dette tilfelle [Agent Authority CUT Regjering], [Entity Economy] i tillegg til at setningene er klassifisert som [Sentence Lead OR Sentence Introductory] (sistnevnte er er operander i spesifikasjoner for en filtreringsopsjon som er gitt navnet 'Incremental Aboutness' (Aarskog, 2002).
Eksempelet er en tekstreduksjon fra en utredning (St.Prp 36 2000-2001) med 2 310 setninger. 110 setninger har forekomster av ordet Regjering (strukturen av medlemmer i fasetten Agent Authority er avkortet til Regjering, se rapporteksempel), 630 setninger er klassifisert som Lead Sentence (ikke bundet til forutgående setninger), 166 setninger er Sentence Introductory (første setning etter en overskrift), og 892 setninger har tilordnet en av kodene for tematiske indikatorer som er ordnet under fasetten [Entity Economy]. 1 371 ordforekomster i teksten er aksesserbare via kodene som er ordnet under denne fasetten, se figurene 11 og 12.
Tekstreduksjonen nedenfor viser at par av setningene er nærmest identiske. I slike utredninger er repetisjon av visse typer setninger vanlig. Enkelte repetisjoner skyldes selvfølgelig at setninger også hentes fra sammendrag i dokumentet (slike seksjoner kan utelukkes fra prosedyrene som genererer tekstreduksjoner). Repetisjoner kan indikere at dokumentprodusent (utredninger er preget av flere forfattere) signaliserer en form for vekting av utsagn.
Duplikat er ikke fjernet fra tekstreduksjonen (for utredninger) fordi repetisjonene forekommer ‘langt fra hverandre’ og at perspektivet eller den omkringliggende diskusjon dermed kan være totalt forskjellig. Ved å åpne mellomliggende tekst får brukeren direkte innsyn til hva som er den omkringliggende diskusjon til hver repetisjon. Systemløsningen inkluderer en prosedyre som identifiserer visse typer av likheter basert på den relative rekkefølgen av ordtyper som er tilordnet de ulike fasetter. Likheter i rekkefølge av ordkonstellasjoner (som ikke har noe med setningens faktiske mening å gjøre) fanges opp gjennom en spesialisert klyngeanalyse av setningene innen en tekst eller over flere tekster (her 11 tekster som er kapittel i dokumentet St.prp 36 2000- 2001.
Fremdeles gjenstår å spesifisere reduksjonsregler for setningsreferenter i slutten av setninger, f eks bør setningen som slutter med [i dette området] utelukkes fordi det er intet i setningen som forteller hva dette området er. I dette konkrete tilfellet er den umiddelbart forutgående setningen [Det er Grane], en setning som er klassifisert som [Setning Follower] og dermed er lenket til neste forutgående setning. Den tematiske indikatoren [_TI-Område] er ordnet under fasetten [Facet Space Region] og forekomsten ‘Grane’ er ordnet under fasetten [Facet Space Region Specific] slik at en aktivering av den overordnede fasetten [Facet Space] vil lokalisere begge disse setningene.
Å fange opp slike referenter i slutten av lengre setninger krever ekstra tilpassing av regelsettet. Rapporter fra forskningsprogram innen IR og IE (Information Retrieval & Information Extraction) viser til en rekke gode algoritmer og systemløsninger for identifisering og håndtering av slike referanser mellom setninger (‘co- reference resolution’). TextSounder har realisert slike regler for første setningsledd. Før en eventuell realisering av regler som angår etterfølgende setningsledd må omfanget av ‘problemet’ vurderes i forhold til behovet for ekstra prosessering. Setningene i tekstreduksjonene blir uansett vist frem i sin tekstlige kontekst ved aktivering av ikon i tekstpanelet.
Tekstreduksjonen på filtreringsnivå 1 er kraftig men synes også å være anvendbar for selv korte nyhetsoppslag (f eks i anvendelser rettet mot skanning av informasjonsomgivelsene). Filtreringsnivå 2 gir en mer ‘informativ’ tekstreduksjon ved at filteret trekker inn operander for TAM (Tense and Modality). Ved en inkrementell anvendelse av filter, kan tekstenheter returnert fra nivå 1 beholdes og kun de setninger som er tilgrensende setninger fra nivå 1 returneres fra filtreringen i nivå 2. Dette prinsippet er benevnt som Innside-Ut- Filtrering. Dersom ordtyper ordnet i fasetten [Entity Economy] er inkludert i brukerens søkemål, utvides settet av tekstenheter gradvis inntil alle 892 setninger er returnert. Brukeren kan velge å holde visse søkeoperander som faste i et søkemål, ha andre søkeoperander som alternative med en viss distanse til de faste, osv.
Systemet skal leveres med fremvisningsenheter som tilbyr brukeren å velge mellom sett av søkeoperander som er aktuelle for en bestemt tekst som det er ønskelig å utforske. Sammenstillingen av søkemakroer som brukeren er fornøyd med kan lagres i en brukerprofil. Ved tilkobling i et operativ gjenfinningssystem, kan en rutine stilles inn for å aktivere denne med jevne mellomrom og brukeren varsles dersom nye tekster som samsvarer med brukerprofilen detekteres (Aarskog, 2002). Komprimerte filer i henhold til filtreringsnivå 1 eller 2 kan deretter sendes til f eks en pda (dvs nivå 1 eller 2 aktiveres over de tekstene som er lokalisert ved aktivering av brukerprofilen).
Informasjon representert i ontologier og/eller tesauri kan anvendes som søkeoperander. Automatisk ekspandering av søkeutsagn eller semantisk utvidelse av tekstrepresentasjoner (systemets søkeselektivitet) gjennom bruk av oppslag i tesauri er omdiskutert innen IR og IE. En endring av indekseringsstrategier må alltid ses i relasjon til skaleringsproblemet. F eks, avhengig av dokumentsamlingens størrelse og heterogenitet, vil en utvidelse av representasjoner med semantisk informasjon kunne resultere i alvorlige diskrimineringsfeil (‘failure of discrimination’) fordi i utgangspunktet ulike dokumentvektorer gjennom de semantiske utvidelsene blir mer lik hverandre (‘failure of description’). Dette er en av årsakene til at Delprosjekt 2 inkluderer en prosedyre for identifisering av målord (Target Word Selection) med referanse til distansen mellom ordforekomster i teksten.
I en tidligere prosjektsøknad var det lagt inn en beskrivelse for hvordan den nå realiserte metoden for tekstreduksjon i den operative prototypen kunne tenkes koblet sammen med teknologi for syntetisk talegenerering. Fordi hver setning er identifiserbar, var forestillingen at en bruker skulle kunne spole lesingen frem og tilbake. Dette etter inspirasjon fra det systemet som Knut Hofland ved AKSIS har laget (også i gruppen Tekstteknologi ved AKSIS). Imidlertid ser det ut til at en slik teknologisk løsning er interessant, men ikke foretrukket i profesjonsmiljø. Foreløpige undersøkelser indikerer at profesjonelle informasjonsbrukere foretrekker tekstpresentasjoner fordi opplesingen er for langsom.
I de løsninger som er lagt frem i delprosjekt 1, blir lydfiler (f eks taler, opptak fra radioprogram) koblet til relaterte tekstsegment (deler av tekster som omtaler samme tema, el.). Alle typer av digitale objekt (tekst, lyd, bilde, video) kan kodes i løpet av analyse og hentes frem gjennom aktiveringen av disse kodene. Lyd- og videofiler kan segmenteres på tilsvarende måte som tekst, dvs at biter av en lyd- eller videofil kan kobles til deler av en tekst (ord, setning, avsnitt, ol). Disse løsningene tilrettelegges i eksisterende kommersiell programvare (inkludert som en av øvingsoppgavene i kurs for profesjonsorientert analyse av digital informasjon). Målsettingen er å utvikle tilsvarende løsninger i ny programvare som opererer mot tekster annotert med grammatikalsk informasjon.
Ytterligere avgrensinger av søkerommet basert på visse konstellasjoner av TAM (‘Tense and Modality’) synes spesielt lovende overfor publikasjoner innen disipliner som medisin, biologi, geologi, ol, (Aarskog, 2003a). Utforsking av slike nye kombinasjoner i allianse med forskere innen slike disipliner er derfor neste steg i aktivitetsplanen for Delprosjekt 2.