|
|
Front Section
>
Status for Delprosjekt 2
>
Komponenter i operativ prototyp
|
Previous
Next
|
|
|
|
|
Følgende liste resymerer komponenter i spesifikasjoner der de mest grunnleggende er
realisert i den operative prototypen som nå er klar for videreutvikling til en ‘demonstrator’ i
samarbeid med et kommersielt foretak.
Fremgangsmåter og spesifikasjonene er registret i patentsøknader som inneholder
henvisninger til prototyper (som i patentsammenheng kun får status som 'preferred
embodiment', dvs i en patentsøknad er fokus mot metoder som kan gi en teknisk effekt
og ikke hvordan denne er realisert rent programmeringsmessig).
|
|
En tematisk tekstsone er her definert som en gruppe setninger eller delsetninger som
har felles karakteristika enten på leksikalsk plan, semantisk plan og/eller pragmatisk
plan. Soneringsprosedyrene identifiserer visse språklige egenskaper, lokalisere
grensene for slike soner og sette inn koder (XML-koder) som merker sonenes
yttergrenser. Tekstsonene er diskontinuerlige og overlappende i forhold til de ulike plan,
hvert plan definert i henhold til et mangfold av underliggende klassifiseringskriterier.
Strukturen mellom soner avbilder hvordan forfatterens oppmerksomhet beveger seg i
teksten og beskriver aspekt ved tekstorganiseringen (innen enkelte fagområder benevnt
som diskursstruktur).
Prosedyrene virker over tekster som er annotert av grammatikkparsere og kan følgelig
justeres i forhold til ulike språk. Norskspråklige tekster er vektlagt i avstemmingen av
prosedyrene slik disse er realisert i den operative prototypen. Output fra
grammatikkparsere blir videre prosessert og subsett av data blir ekstrahert og lagt i et
spesialisert XML-filformat. Samlingen av systemfiler er organisert i kapslingsnivå med
referanse til ulike typer logiske objekt i dokument (tekst, bilde, lyd ol) og blir administrert i
en RDBMS.
Metoden er spesielt egnet for tematisk avgrensede tekstsamlinger, men slik at et
dokument tekstene er ekstrahert fra kan dekke flere tematiske eller faglige domener.
Prosedyrer lar seg også avstemme i forhold til dokumentenes klassetilhørighet:
normativ, kompetanse, forhandling og debatt ( Aarskog, 1999) (skilles mellom
dokumentklasse og tekstsjanger).
Metoden og prosedyrene har en teoretisk forankring i diskursanalytiske tilnærmingsmåter
- såkalt innholdsbaserte metoder (bl a Hasan 1989; Bhatia 1993; Fugman 1993;
Coulthard 1994; Myers 1994, Werth 1999, m fl), bruken av tekstlige markører (bl a Hoey
1991, 1994, 2001; Mann & Thompson 1992; Goutsous 1996; Weigand 2002, m fl),
kriterier for identifisering av visse typer av tekstlig repetisjon (bl a Morris & Hirst 1991;
Benbrahim & Ahmad 1994; Kozima 1993; Hearst 1994; Reynar 1994; Chan 1996, m fl).
Publikasjoner viser til en mengde teknikker for å segmentere teksten i adskilte enheter
som er tematisk kontinuerlige (se bl a Endres- Niggemeyer 1998). I den operative
prototypen var målet å identifisere tematiske soner og ikke nødvendigvis slik at alle
setningene i teksten er klassifisert til å tilhøre en sone, men slik at visse enheter av
teksten kan bli gitt en rang eller vekt i forhold til ulike vekter som tematisk tetthet,
navngitte fenomen som er omtalt, retoriske signal, tidsdimensjon, ol. Metode og
prosedyrer har også en forankring i teorier relatert til fasettklassifisering (bl a
Ranganathan 1967; Langridge 1992; Foskett 1996; Spiteri 1998 m fl) og
tilnærmingsmåter er fundert på teori/empiri om informasjonssøkeatferd (bl a Blair 1990,
2002; Ellis 1990; Kuhlthau 1993; McKnight 1993 m fl), se Referanser i denne
presentasjonen.
|
|
Fokusord (‘author-focused words’) anvendes i prosedyrer for automatisk identifisering
av
tematiske segment eller enheter i teksten, dvs et aspekt ved tekstenes tematiske
struktur (kontinuerlige, diskontinuerlige og overlappende tematiske soner).
-
Metode, prosedyre og apparat som utleder visse
typer av leksikalske kjeder
gjennom teksten, enten basert på fokusord (author focused words) eller
ordtyper som er registrert i en brukerprofil eller oppgitt i et søkeutsagn
(søkemål) dvs user-focused words.
Søkemål og brukerprofil avbilder element i de verbaliserte delene av informasjonsbehov.
Bruker kan levere tekstsegment fra andre tekster som prosesseres for å utlede søkemål
som aktiverer søkemakroer som virker over større samlinger av tekster, finner
tekstsoner med en gard av likhet i tematisk profil og foretar tekstreduksjoner (som ikke
må forveksles med tekstresymering).
Mønster av krysningspunkt mellom leksikalske kjeder (klasser av fokusord og tetthet)
bidrar til å styrke markeringen av tematiske soner i teksten. Krysningspunktene er
operander i prosedyrer som utleder hypertekstlige traverseringsbaner gjennom tekstene,
det vil si predefinerte baner gjennom teksten eller generert dynamisk med referanse til
valg fra bruker. Eksterne semantiske ressurser (tesauri, ontologier, orlister, ol) anvendes
for å styrke den tematiske soneringen ( Aarskog,
2002).
|
|
Dette er en klassisk IE tilnærmingsmåte, men der ekstraheringsprosedyrene er meget
spesialiserte ved at de virker sammen med prosedyrer som utfører spesialiserte
frekvens- og fordelingsberegninger, ol. En ekstraheringsprosedyre opererer f eks mot
substantiv og verb og gjennom en klyngeanalyse (‘cluster analysis’) beregnes
kollokasjoner og klynger avgrenset mot bestemte ordklasser (kombinerte kollokasjoner
basert på grammatikalsk informasjon og frekvensinformasjon). Ord fra tekstens
setninger ekstraheres og regulariseres i et sett av integrerte rammer ('frames in levels of
enclosure'). Regulariserte tekstdata anvendes i prosedyrer som ekstraherer visse
konstellasjoner av substantiv – verb – substantiv eventuelt redusert til subjekt – verb –
objekt, eller andre mønstre.
Tekstens setninger er delt inn i fragment og med basis i seks klasser av kriterier
(f eks
varianter av leksikalsk kohesjon, sematiske relasjoner ol.) i den hensikt å bidra til økt
presisjon i sonesensorer som undersøker ordtypers nære tekstlige kontekst. Egne
prosedyrer kan også hente frem visse ordtyper som forekommer i den umiddelbare
nærhet av tekstenheter som samsvarer med predefinerte mønster. Slike mønster kan
også kobles mot rammer (‘frames’) for representasjon av bestemte ordtyper i den
umiddelbare nærhet av grammatikalske mønster, ( Aarskog, 2003b). Slike ordtyper
kan
være spesifisert i tesauri ( f eks innen statsvitenskap), nomenklaturer (ordnede lister av
navngitte enheter relatert til ulike typer av virksomheter) eller ontologier (ordnede
begrepsrelasjoner i henhold til en representasjonssyntaks f eks innen biomedisinske
fagfelt).
Data er balansert mot tekstens logiske nåtidspunkt som er registrert i dokumentets
Dublin Core sett. Tekstsegment kan dermed filtreres med referanse til intratekstuelle
temporale alternasjoner og intertekstuelt vises i nettverk (grafiske visninger) som er
ordnet kronologisk (logisk nåtid) og/eller dokumentklassetilhørighet. Nettverkene
visualiserer således et ‘dokumentrom’ der tekstsegment får en plassering i forhold til to
typer tidsreferanser. Brukeren kan aktivere teksten eller tekstreduksjoner ved å klikke
over noder som er vist i slike nettverk (gitt benevnelsen informasjonslandskap eller
dokumentrom).
|
|
Forskjellen til tradisjonelle sammendrag er at tekstreduksjonene genereres dynamisk
og
der de enkelte setninger eller tekstsegment (tematiske soner krysset med tempusdata,
fokusord eller søkemål) blir vist frem i sin tekstlige kontekst. Konseptet er gitt navnet
‘Text driven attention structures on demand’ der brukeren gis opsjoner for å utforske og
navigere i teksten via nye typer fremvisningsenheter ( Aarskog, 2003c). Faktorer
angående spesifikk utforming av grensesnitt og interaksjonsmodus vil bli overlatt til
ekspertise innen dette fagområdet. Spesifikasjonene inkluderer en inndeling i fem
interaksjonsmodus med økende kompleksitet (og økte kostnader).
-
Metode og prosedyrer som tillater justering
av tekstreduksjonene med
referanse til distanseoperatorer, antall fokusord i tilgrensende setninger, og
om avhengige setninger (bundet gjennom ett sett kriterier for styrking av
sonegrenser, anafori, osv) skal være med i visning av en tekstreduksjon eller
ikke.
Et eget vinduspanel med data ekstrahert fra underliggende tekster tillater at brukeren
kan
styre omfanget i tekstreduksjonene. Prinsippet er benevnt som ‘text remediation’ for å
markere et skille mot redskap for tekstsammendrag.
Prosedyren fungerer med referanse til data som legges i de dynamiske setningsfilene.
Tekstreduksjonene fremstår følgelig ikke som en ‘erstatning’ for den opprinnelige
teksten, men skal gi profesjoner grunnlag for å beslutte om teksten synes å kunne dekke
element i informasjonsbehov (slik disse er uttrykt i søkemål eller brukerprofiler),
( Aarskog, 2003e).
Prosedyrene forsyner en egen filstruktur som administrerer setningsdata med en ulike
opplysninger (en fast fil for statiske setnings- eller fragmentopplysninger og temporære
filer med opplysninger som legges inn dynamisk med referanse til data som
fremkommer gjennom brukerens interaksjon med systemet).
-
Metode og prosedyrer som identifiserer og klassifiserer
visse enkle typer av
anafori samt andre setningskoblinger manifestert gjennom visse typer av
adverbialer, subjunksjoner, preposisjoner og konstellasjoner av
artikler/adjektiv/substantiv mht til hvilke setningsledd de forekommer i
(setning delt inn i fragment mht et sett grammatikalske kriterier).
Prosedyren legger resultat inn i filen(e) med statiske setningsdata. På basis av data
som
legges inn i filen med statiske setningsdata markeres setningene som bundet til
forutgående setning for å sikre kontinuitet i tekstreduksjonene. Prosedyrene har som mål
å styrke tematiske sonegrenser.
|
|
En prosedyre for målordsseleksjon (Aarskog, 2001; 2002) henter ut visse ordtyper fra
tekstenheter som er returnert fra mønsterbasert ekstrahering (f eks konstellasjoner med
substantiv-verb-substantiv) og ordtypene sjekkes via oppslag i eksterne
leksikalske/semantiske ressurser (ordnett, tesauri, terminologiske baser, ontologier eller
PROLOG-baser fra ekspertsystemenes tid). Prosedyren opererer i sykliske runder,
( Aarskog, 2003d). Ord som er i den nære tekstlige konteksten til ord som er klassifisert
i
første runde, sjekkes mot synonymer og kvasisynonymer til ord fra første runde, osv.
Prosedyren opererer mot SVS-strukturer eller andre ekstraherte mønstre som er av
interesse. Prosedyren leder til en gradvis utvikling og oppdatering av domenespesifikke
tesauri (eventuelt ontologier innen avgrensede tematiske domener) som kan kobles inn
som en av ressursene både i prosedyrene for ordutvelgelse og som en komponent i den
spesialiserte prosedyren for automatisk identifisering av tekstens tematiske struktur.
Data som lagres i systemet med domenespesifikke fasetter benyttes for å si noe om
stabilitet og variabilitet i den nære tekstlige konteksten til ordtypene som er operander i
målordsseleksjonen.
|
|
-
Metode og prosedyrer som administrerer filtreringsopsjoner
som er sett av
søkemakroer ordnet i abstraksjonsnivå som er definert over dokumentenes
logiske objekttyper, grammatikkbaserte ekstraheringsmønstre, fasetter
(semantiske klasser) og relasjoner mellom ord i de ulike fasetter.
Bruker kan aktivere filtreringsopsjonene i predefinert form, eller åpne opsjoner for
å
justere settet av søkeoperander eller regulere distanseoperatorer (profesjonelle brukere).
Filtreringsopsjonene er ordnet i ulike ‘modus operandi’ med referanse til kompleksitet for
å kunne tilpasse utviklingskostnader til ulike brukersamfunn.
-
Metode og prosedyrer som med basis i ekstraherte
mønster, f eks Subjekt-
Verb-Objekt, genererer visualiseringer i form av grafiske visninger og der
ekstraherte konstellasjoner lar seg ordne i forhold til fasetter (semantiske
klasser).
Tekstsegment (tematiske soner) blir vist enten i et eget tekstpanel og/eller som noder
i
grafiske nettverk. Nodene i nettene inkluderer frekvensinformasjon, dvs hvor mange
forekomster et ord/uttrykk er tilordnet tekstsegment, enten frekvens på ordnivå (lemma)
eller konsolidert til setningsnivå. Med basis i adresseinformasjon om de tematiske
tekstsegmentene (data i de dynamisk genererte setningsfilene) kan
distanseopplysninger også legges inn i de grafiske visningene.
Brukeren kan få vist frem teksten ved å klikke over noder som er visualisert i slike
nettverk eller informasjonslandskap. Visualiseringen skal utvides til å inkludere nodenes
tilhørighet i forhold til dokument som de er ekstrahert fra (dokumentklasser i langs
kriterier som aktørenes normeringsmyndighet, sosiale roller, fase i saksgang, ol, dvs
informasjon lagret i dokumentenes Dublin Core sett). Med basis i adresseinformasjon
om de tematiske tekstsegmentene (data om sonegrenser som er lagret i de dynamisk
genererte setningsfilene), kan distanseopplysninger også legges inn i de grafiske
visningene. Reduksjonsstrategiene for hva som blir inkludert i en visning skal
avstemmes i forhold til intratekstuelt nivå (innen en tekst, f eks en lengre utredning) og
intertekstuelt nivå (over flere relaterte tekster).
Fremvisningsenheten inkorporerer sidestilte og sammenkoblede vinduspanel med
opsjon for visning av vinduspanelenes innhold i dynamiske grafiske representasjoner, og
et rikt utvalg av opsjoner for navigering i fremvisningsenhetene. Fremvisningsenheten
inkluderer redigert frekvensinformasjon, enten absolutt frekvens eller antall tematiske
soner som er utledet med referanse til de ordtypene som er vist frem som ordnet i
fasetter.
Grensesnittet er inkludert i spesifikasjonen for en Text Remediation Work
Bench og med navnet TextSounder som er søkt mønsterbeskyttet.
|
|
|
|
|
|