Når fremvisningsenheten er realisert vil en aktivering av et ikon (nå ## )
vise den
aktuelle setning i sin tekstlige kontekst (hvert grensepunkt mellom setninger holder
adresseopplysninger som er koblinger mellom tekstreduksjonen og kildefilen, der
sistnevnte er lagret eksternt i forhold til den enheten som har mottatt tekstreduksjonen, f
eks en pda). Ordtypene som lokaliseres av operandene i søkemakro kan eventuelt
markeres med farger i dette tilfelle [Agent Authority CUT Regjering], [Entity Economy] i
tillegg til at setningene er klassifisert som [Sentence Lead OR Sentence Introductory]
(sistnevnte er er operander i spesifikasjoner for en filtreringsopsjon som er gitt navnet
'Incremental Aboutness' (Aarskog, 2002).
Eksempelet er en tekstreduksjon fra en utredning (St.Prp 36 2000-2001) med 2 310
setninger. 110 setninger har forekomster av ordet Regjering (strukturen av medlemmer i
fasetten Agent Authority er avkortet til Regjering, se
rapporteksempel), 630 setninger
er
klassifisert som Lead Sentence (ikke bundet til forutgående setninger), 166 setninger er
Sentence Introductory (første setning etter en overskrift), og 892 setninger har tilordnet
en av kodene for tematiske indikatorer som er ordnet under fasetten [Entity Economy]. 1
371 ordforekomster i teksten er aksesserbare via kodene som er ordnet under denne
fasetten, se figurene 11 og 12.
Tekstreduksjonen nedenfor viser at par av setningene er nærmest identiske. I slike
utredninger er repetisjon av visse typer setninger vanlig. Enkelte repetisjoner skyldes
selvfølgelig at setninger også hentes fra sammendrag i dokumentet (slike seksjoner kan
utelukkes fra prosedyrene som genererer tekstreduksjoner). Repetisjoner kan indikere at
dokumentprodusent (utredninger er preget av flere forfattere) signaliserer en form for
vekting av utsagn.
Duplikat er ikke fjernet fra tekstreduksjonen (for utredninger) fordi repetisjonene
forekommer ‘langt fra hverandre’ og at perspektivet eller den omkringliggende diskusjon
dermed kan være totalt forskjellig. Ved å åpne mellomliggende tekst får brukeren direkte
innsyn til hva som er den omkringliggende diskusjon til hver repetisjon. Systemløsningen
inkluderer en prosedyre som identifiserer visse typer av likheter basert på den relative
rekkefølgen av ordtyper som er tilordnet de ulike fasetter. Likheter i rekkefølge av
ordkonstellasjoner (som ikke har noe med setningens faktiske mening å gjøre) fanges
opp gjennom en spesialisert klyngeanalyse av setningene innen en tekst eller over flere
tekster (her 11 tekster som er kapittel i dokumentet St.prp 36 2000- 2001.
Fremdeles gjenstår å spesifisere reduksjonsregler for setningsreferenter i slutten
av
setninger, f eks bør setningen som slutter med [i dette området] utelukkes fordi det er
intet i setningen som forteller hva dette området er. I dette konkrete tilfellet er den
umiddelbart forutgående setningen [Det er Grane], en setning som er klassifisert som
[Setning Follower] og dermed er lenket til neste forutgående setning. Den tematiske
indikatoren [_TI-Område] er ordnet under fasetten [Facet Space Region] og forekomsten
‘Grane’ er ordnet under fasetten [Facet Space Region Specific] slik at en aktivering av
den overordnede fasetten [Facet Space] vil lokalisere begge disse setningene.
Å fange opp slike referenter i slutten av lengre setninger krever ekstra tilpassing
av
regelsettet. Rapporter fra forskningsprogram innen IR og IE (Information Retrieval &
Information Extraction) viser til en rekke gode algoritmer og systemløsninger for
identifisering og håndtering av slike referanser mellom setninger (‘co- reference
resolution’). TextSounder har realisert slike regler for første setningsledd. Før en
eventuell realisering av regler som angår etterfølgende setningsledd må omfanget av
‘problemet’ vurderes i forhold til behovet for ekstra prosessering. Setningene i
tekstreduksjonene blir uansett vist frem i sin tekstlige kontekst ved aktivering av ikon i
tekstpanelet.
Tekstreduksjonen på filtreringsnivå 1 er kraftig men synes også å være anvendbar for
selv korte nyhetsoppslag (f eks i anvendelser rettet mot skanning av
informasjonsomgivelsene). Filtreringsnivå 2 gir en mer ‘informativ’ tekstreduksjon ved at
filteret trekker inn operander for TAM (Tense and Modality). Ved en inkrementell
anvendelse av filter, kan tekstenheter returnert fra nivå 1 beholdes og kun de setninger
som er tilgrensende setninger fra nivå 1 returneres fra filtreringen i nivå 2. Dette
prinsippet er benevnt som Innside-Ut- Filtrering. Dersom ordtyper ordnet i fasetten [Entity
Economy] er inkludert i brukerens søkemål, utvides settet av tekstenheter gradvis inntil
alle 892 setninger er returnert. Brukeren kan velge å holde visse søkeoperander som
faste i et søkemål, ha andre søkeoperander som alternative med en viss distanse til de
faste, osv.
Systemet skal leveres med fremvisningsenheter som tilbyr brukeren å velge mellom sett
av søkeoperander som er aktuelle for en bestemt tekst som det er ønskelig å utforske.
Sammenstillingen av søkemakroer som brukeren er fornøyd med kan lagres i en
brukerprofil. Ved tilkobling i et operativ gjenfinningssystem, kan en rutine stilles inn for å
aktivere denne med jevne mellomrom og brukeren varsles dersom nye tekster som
samsvarer med brukerprofilen detekteres (Aarskog, 2002). Komprimerte filer i henhold til
filtreringsnivå 1 eller 2 kan deretter sendes til f eks en pda (dvs nivå 1 eller 2 aktiveres
over de tekstene som er lokalisert ved aktivering av brukerprofilen).
Informasjon representert i ontologier og/eller tesauri kan anvendes som søkeoperander.
Automatisk ekspandering av søkeutsagn eller semantisk utvidelse av
tekstrepresentasjoner (systemets søkeselektivitet) gjennom bruk av oppslag i tesauri er
omdiskutert innen IR og IE. En endring av indekseringsstrategier må alltid ses i relasjon
til skaleringsproblemet. F eks, avhengig av dokumentsamlingens størrelse og
heterogenitet, vil en utvidelse av representasjoner med semantisk informasjon kunne
resultere i alvorlige diskrimineringsfeil (‘failure of discrimination’) fordi i utgangspunktet
ulike dokumentvektorer gjennom de semantiske utvidelsene blir mer lik hverandre
(‘failure of description’). Dette er en av årsakene til at Delprosjekt 2 inkluderer en
prosedyre for identifisering av målord (Target Word Selection) med referanse til
distansen mellom ordforekomster i teksten.
I en tidligere prosjektsøknad var det lagt inn en beskrivelse for hvordan den nå realiserte
metoden for tekstreduksjon i den operative prototypen kunne tenkes koblet sammen
med teknologi for syntetisk talegenerering. Fordi hver setning er identifiserbar, var
forestillingen at en bruker skulle kunne spole lesingen frem og tilbake. Dette etter
inspirasjon fra det systemet som Knut Hofland ved AKSIS har laget (også i gruppen
Tekstteknologi ved AKSIS). Imidlertid ser det ut til at en slik teknologisk løsning er
interessant, men ikke foretrukket i profesjonsmiljø. Foreløpige undersøkelser indikerer at
profesjonelle informasjonsbrukere foretrekker tekstpresentasjoner fordi opplesingen er
for langsom.
I de løsninger som er lagt frem i delprosjekt 1, blir lydfiler (f eks taler, opptak
fra
radioprogram) koblet til relaterte tekstsegment (deler av tekster som omtaler samme
tema, el.). Alle typer av digitale objekt (tekst, lyd, bilde, video) kan kodes i løpet av
analyse og hentes frem gjennom aktiveringen av disse kodene. Lyd- og videofiler kan
segmenteres på tilsvarende måte som tekst, dvs at biter av en lyd- eller videofil kan
kobles til deler av en tekst (ord, setning, avsnitt, ol). Disse løsningene tilrettelegges i
eksisterende kommersiell programvare (inkludert som en av øvingsoppgavene i kurs for
profesjonsorientert analyse av digital informasjon). Målsettingen er å utvikle tilsvarende
løsninger i ny programvare som opererer mot tekster annotert med grammatikalsk
informasjon.
Ytterligere avgrensinger av søkerommet basert på visse konstellasjoner av TAM (‘Tense
and Modality’) synes spesielt lovende overfor publikasjoner innen disipliner som medisin,
biologi, geologi, ol, (Aarskog, 2003a). Utforsking av slike nye kombinasjoner i allianse
med forskere innen slike disipliner er derfor neste steg i aktivitetsplanen for Delprosjekt 2.