Komponenter i operativ prototyp
Følgende liste resymerer komponenter i spesifikasjoner der de mest grunnleggende er realisert i den operative prototypen som nå er klar for videreutvikling til en ‘demonstrator’ i samarbeid med et kommersielt foretak.
Fremgangsmåter og spesifikasjonene er registret i patentsøknader som inneholder henvisninger til prototyper (som i patentsammenheng kun får status som 'preferred embodiment', dvs i en patentsøknad er fokus mot metoder som kan gi en teknisk effekt og ikke hvordan denne er realisert rent programmeringsmessig).
Tematiske strukturer i tekst
  • Metode, prosedyrer og apparat som automatisk identifiserer tematiske tekstsoner og tematiske strukturer i tekst.
En tematisk tekstsone er her definert som en gruppe setninger eller delsetninger som har felles karakteristika enten på leksikalsk plan, semantisk plan og/eller pragmatisk plan. Soneringsprosedyrene identifiserer visse språklige egenskaper, lokalisere grensene for slike soner og sette inn koder (XML-koder) som merker sonenes yttergrenser. Tekstsonene er diskontinuerlige og overlappende i forhold til de ulike plan, hvert plan definert i henhold til et mangfold av underliggende klassifiseringskriterier. Strukturen mellom soner avbilder hvordan forfatterens oppmerksomhet beveger seg i teksten og beskriver aspekt ved tekstorganiseringen (innen enkelte fagområder benevnt som diskursstruktur).
Prosedyrene virker over tekster som er annotert av grammatikkparsere og kan følgelig justeres i forhold til ulike språk. Norskspråklige tekster er vektlagt i avstemmingen av prosedyrene slik disse er realisert i den operative prototypen. Output fra grammatikkparsere blir  videre prosessert og subsett av data blir ekstrahert og lagt i et spesialisert XML-filformat. Samlingen av systemfiler er organisert i kapslingsnivå med referanse til ulike typer logiske objekt i dokument (tekst, bilde, lyd ol) og blir administrert i en RDBMS.
  • Metode, prosedyrer og apparat som tilpassert reduksjonsstrategier som virker over annoterte filer slik at disse avstemmes i forhold til tekstsamlingens størrelse og heterogenitet (skaleringsproblemet).
Metoden er spesielt egnet for tematisk avgrensede tekstsamlinger, men slik at et dokument tekstene er ekstrahert fra kan dekke flere tematiske eller faglige domener. Prosedyrer lar seg også avstemme i forhold til dokumentenes klassetilhørighet: normativ, kompetanse, forhandling og debatt (Aarskog, 1999) (skilles mellom dokumentklasse og tekstsjanger).
Metoden og prosedyrene har en teoretisk forankring i diskursanalytiske tilnærmingsmåter - såkalt innholdsbaserte metoder (bl a Hasan 1989; Bhatia 1993; Fugman 1993; Coulthard 1994; Myers 1994, Werth 1999, m fl), bruken av tekstlige markører (bl a Hoey 1991, 1994, 2001; Mann & Thompson 1992; Goutsous 1996; Weigand 2002, m fl), kriterier for identifisering av visse typer av tekstlig repetisjon (bl a Morris & Hirst 1991; Benbrahim & Ahmad 1994; Kozima 1993; Hearst 1994; Reynar 1994; Chan 1996, m fl). Publikasjoner viser til en mengde teknikker for å segmentere teksten i adskilte enheter som er tematisk kontinuerlige (se bl a Endres- Niggemeyer 1998). I den operative prototypen var målet å identifisere tematiske soner og ikke nødvendigvis slik at alle setningene i teksten er klassifisert til å tilhøre en sone, men slik at visse enheter av teksten kan bli gitt en rang eller vekt i forhold til ulike vekter som tematisk tetthet, navngitte fenomen som er omtalt, retoriske signal, tidsdimensjon, ol. Metode og prosedyrer har også en forankring i teorier relatert til fasettklassifisering (bl a Ranganathan 1967; Langridge 1992; Foskett 1996; Spiteri 1998 m fl) og tilnærmingsmåter er fundert på teori/empiri om informasjonssøkeatferd (bl a Blair 1990, 2002; Ellis 1990; Kuhlthau 1993; McKnight 1993 m fl), se Referanser i denne presentasjonen.
Fokusord med koblingstetthet
  • Metode, prosedyrer og apparat som identifiserer fokusord (også benevnt som kjerneord) basert på kriterier for koblingstetthet i teksten og vektet mot absolutt frekvens og et relativt frekvensmål i forhold til ordenes grammatikalske klasse (tekstmetrikk).
Fokusord (‘author-focused words’) anvendes i prosedyrer for automatisk identifisering av tematiske segment eller enheter i teksten, dvs et aspekt ved tekstenes tematiske struktur (kontinuerlige, diskontinuerlige og overlappende tematiske soner).
  • Metode, prosedyre og apparat som utleder visse typer av leksikalske kjeder gjennom teksten, enten basert på fokusord (author focused words) eller ordtyper som er registrert i en brukerprofil eller oppgitt i et søkeutsagn (søkemål) – dvs ‘user-focused words’.
Søkemål og brukerprofil avbilder element i de verbaliserte delene av informasjonsbehov. Bruker kan levere tekstsegment fra andre tekster som prosesseres for å utlede søkemål som aktiverer søkemakroer som virker over større samlinger av tekster, finner tekstsoner med en gard av likhet i tematisk profil og foretar tekstreduksjoner (som ikke må forveksles med tekstresymering).
Mønster av krysningspunkt mellom leksikalske kjeder (klasser av fokusord og tetthet) bidrar til å styrke markeringen av tematiske soner i teksten. Krysningspunktene er operander i prosedyrer som utleder hypertekstlige traverseringsbaner gjennom tekstene, det vil si predefinerte baner gjennom teksten eller generert dynamisk med referanse til valg fra bruker. Eksterne semantiske ressurser (tesauri, ontologier, orlister, ol) anvendes for å styrke den tematiske soneringen (Aarskog, 2002).
Mønsterbasert ekstrahering
  • Metode og prosedyrer som ekstraherer data fra de grammatikalsk annoterte filene og i henhold til et sett definerte mønster.
Dette er en klassisk IE tilnærmingsmåte, men der ekstraheringsprosedyrene er meget spesialiserte ved at de virker sammen med prosedyrer som utfører spesialiserte frekvens- og fordelingsberegninger, ol. En ekstraheringsprosedyre opererer f eks mot substantiv og verb og gjennom en klyngeanalyse (‘cluster analysis’) beregnes kollokasjoner og klynger avgrenset mot bestemte ordklasser (kombinerte kollokasjoner basert på grammatikalsk informasjon og frekvensinformasjon). Ord fra tekstens setninger ekstraheres og regulariseres i et sett av integrerte rammer ('frames in levels of enclosure'). Regulariserte tekstdata anvendes i prosedyrer som ekstraherer visse konstellasjoner av substantiv – verb – substantiv eventuelt redusert til subjekt – verb – objekt, eller andre mønstre.
  • Metode og prosedyrer som ekstraherer informasjon i henhold til mønstre og beregner distribusjon over hele tekstens lengde med referanse til kriterier som beskriver ulike former for leksikalsk- semantisk repetisjon.
Tekstens setninger er delt inn i fragment og med basis i seks klasser av kriterier (f eks varianter av leksikalsk kohesjon, sematiske relasjoner ol.) i den hensikt å bidra til økt presisjon i sonesensorer som undersøker ordtypers nære tekstlige kontekst. Egne prosedyrer kan også hente frem visse ordtyper som forekommer i den umiddelbare nærhet av tekstenheter som samsvarer med predefinerte mønster. Slike mønster kan også kobles mot rammer (‘frames’) for representasjon av bestemte ordtyper i den umiddelbare nærhet av grammatikalske mønster, (Aarskog, 2003b). Slike ordtyper kan være spesifisert i tesauri ( f eks innen statsvitenskap), nomenklaturer (ordnede lister av navngitte enheter relatert til ulike typer av virksomheter) eller ontologier (ordnede begrepsrelasjoner i henhold til en representasjonssyntaks f eks innen biomedisinske fagfelt).
  • Metode og prosedyrer som identifiserer temporale alternasjoner i teksten, på øverste abstraksjonsnivå i henhold til det såkalte presenssystemet og preteritumsystemet.
Data er balansert mot tekstens logiske nåtidspunkt som er registrert i dokumentets Dublin Core sett. Tekstsegment kan dermed filtreres med referanse til intratekstuelle temporale alternasjoner og intertekstuelt vises i nettverk (grafiske visninger) som er ordnet kronologisk (logisk nåtid) og/eller dokumentklassetilhørighet. Nettverkene visualiserer således et ‘dokumentrom’ der tekstsegment får en plassering i forhold til to typer tidsreferanser. Brukeren kan aktivere teksten eller tekstreduksjoner ved å klikke over noder som er vist i slike nettverk (gitt benevnelsen informasjonslandskap eller dokumentrom).
Brukerstyrte tekstreduksjoner
  • Metode og prosedyrer som automatisk genererer tekstreduksjoner.
Forskjellen til tradisjonelle sammendrag er at tekstreduksjonene genereres dynamisk og der de enkelte setninger eller tekstsegment (tematiske soner krysset med tempusdata, fokusord eller søkemål) blir vist frem i sin tekstlige kontekst. Konseptet er gitt navnet ‘Text driven attention structures on demand’ der brukeren gis opsjoner for å utforske og navigere i teksten via nye typer fremvisningsenheter (Aarskog, 2003c). Faktorer angående spesifikk utforming av grensesnitt og interaksjonsmodus vil bli overlatt til ekspertise innen dette fagområdet. Spesifikasjonene inkluderer en inndeling i fem interaksjonsmodus med økende kompleksitet (og økte kostnader).
  • Metode og  prosedyrer som tillater justering av tekstreduksjonene med referanse til distanseoperatorer, antall fokusord i tilgrensende setninger, og om avhengige setninger (bundet gjennom ett sett kriterier for styrking av sonegrenser, anafori, osv) skal være med i visning av en tekstreduksjon eller ikke.
Et eget vinduspanel med data ekstrahert fra underliggende tekster tillater at brukeren kan styre omfanget i tekstreduksjonene. Prinsippet er benevnt som ‘text remediation’ for å markere et skille mot redskap for tekstsammendrag.
  • Metode og prosedyrer som komprimerer den fremviste teksten i et tekstpanel slik at kun den reduserte teksten vises, og der brukeren på enhver sone- eller segmentgrense kan ‘åpne’ den mellomliggende og skjulte teksten.
Prosedyren fungerer med referanse til data som legges i de dynamiske setningsfilene. Tekstreduksjonene fremstår følgelig ikke som en ‘erstatning’ for den opprinnelige teksten, men skal gi profesjoner grunnlag for å beslutte om teksten synes å kunne dekke element i informasjonsbehov (slik disse er uttrykt i søkemål eller brukerprofiler), (Aarskog, 2003e).
  • Metode og prosedyrer som justerer tematiske soner i henhold til data fra en av de overnevnte prosedyrer.
Prosedyrene forsyner en egen filstruktur som administrerer setningsdata med en ulike opplysninger (en fast fil for statiske setnings- eller fragmentopplysninger og temporære filer med opplysninger som legges inn dynamisk med referanse til data som fremkommer gjennom brukerens interaksjon med systemet).
  • Metode og prosedyrer som identifiserer og klassifiserer visse enkle typer av anafori samt andre setningskoblinger manifestert gjennom visse typer av adverbialer, subjunksjoner, preposisjoner og konstellasjoner av artikler/adjektiv/substantiv mht til hvilke setningsledd de forekommer i (setning delt inn i fragment mht et sett grammatikalske kriterier).
Prosedyren legger resultat inn i filen(e) med statiske setningsdata. På basis av data som legges inn i filen med statiske setningsdata markeres setningene som bundet til forutgående setning for å sikre kontinuitet i tekstreduksjonene. Prosedyrene har som mål å styrke tematiske sonegrenser.
Målordsseleksjon for videreutvikling av tesauri/ontologier
  • Metode og prosedyrer som anvender domenespesifikke leksikalske og semantiske ressurser for å styrke presisjonen i tekstreduksjoner og/eller styrke presisjonen i andre filtreringsopsjoner f eks automatisk generering av enheter i tekstens tematiske struktur.
En prosedyre for målordsseleksjon (Aarskog, 2001; 2002) henter ut visse ordtyper fra tekstenheter som er returnert fra mønsterbasert ekstrahering (f eks konstellasjoner med substantiv-verb-substantiv) og ordtypene sjekkes via oppslag i eksterne leksikalske/semantiske ressurser (ordnett, tesauri, terminologiske baser, ontologier eller PROLOG-baser fra ekspertsystemenes tid). Prosedyren opererer i sykliske runder, (Aarskog, 2003d). Ord som er i den nære tekstlige konteksten til ord som er klassifisert i første runde, sjekkes mot synonymer og kvasisynonymer til ord fra første runde, osv.
Prosedyren opererer mot SVS-strukturer eller andre ekstraherte mønstre som er av interesse. Prosedyren leder til en gradvis utvikling og oppdatering av domenespesifikke tesauri (eventuelt ontologier innen avgrensede tematiske domener) som kan kobles inn som en av ressursene både i prosedyrene for ordutvelgelse og som en komponent i den spesialiserte prosedyren for automatisk identifisering av tekstens tematiske struktur. Data som lagres i systemet med domenespesifikke fasetter benyttes for å si noe om stabilitet og variabilitet i den nære tekstlige konteksten til ordtypene som er operander i målordsseleksjonen.
Fremvisningsenheter koblet til grafiske visualiseringer av hypertekstlige nett
  • Metode og prosedyrer som administrerer filtreringsopsjoner som er sett av søkemakroer ordnet i abstraksjonsnivå som er definert over dokumentenes logiske objekttyper, grammatikkbaserte ekstraheringsmønstre, fasetter (semantiske klasser) og relasjoner mellom ord i de ulike fasetter.
Bruker kan aktivere filtreringsopsjonene i predefinert form, eller åpne opsjoner for å justere settet av søkeoperander eller regulere distanseoperatorer (profesjonelle brukere). Filtreringsopsjonene er ordnet i ulike ‘modus operandi’ med referanse til kompleksitet for å kunne tilpasse utviklingskostnader til ulike brukersamfunn.
  • Metode og prosedyrer som med basis i ekstraherte mønster, f eks Subjekt- Verb-Objekt, genererer visualiseringer i form av grafiske visninger og der ekstraherte konstellasjoner lar seg ordne i forhold til fasetter (semantiske klasser). 
Tekstsegment (tematiske soner) blir vist enten i et eget tekstpanel og/eller som noder i grafiske nettverk. Nodene i nettene inkluderer frekvensinformasjon, dvs hvor mange forekomster et ord/uttrykk er tilordnet tekstsegment, enten frekvens på ordnivå (lemma) eller konsolidert til setningsnivå. Med basis i adresseinformasjon om de tematiske tekstsegmentene (data i de dynamisk genererte setningsfilene) kan distanseopplysninger også legges inn i de grafiske visningene.
Brukeren kan få vist frem teksten ved å klikke over noder som er visualisert i slike nettverk eller informasjonslandskap. Visualiseringen skal utvides til å inkludere nodenes tilhørighet i forhold til dokument som de er ekstrahert fra (dokumentklasser i langs kriterier som aktørenes normeringsmyndighet, sosiale roller, fase i saksgang, ol, dvs informasjon lagret i dokumentenes Dublin Core sett). Med basis i adresseinformasjon om de tematiske tekstsegmentene (data om sonegrenser som er lagret i de dynamisk genererte setningsfilene), kan distanseopplysninger også legges inn i de grafiske visningene. Reduksjonsstrategiene for hva som blir inkludert i en visning skal avstemmes i forhold til intratekstuelt nivå (innen en tekst, f eks en lengre utredning) og intertekstuelt nivå (over flere relaterte tekster).
  • Metode, prosedyre og apparat som viser frem innholdet i ekstraherte mønster i et meget spesialiserte fremvisningsenheter som tillater at brukeren kan utforske teksten på nye måter.
Fremvisningsenheten inkorporerer sidestilte og sammenkoblede vinduspanel med opsjon for visning av vinduspanelenes innhold i dynamiske grafiske representasjoner, og et rikt utvalg av opsjoner for navigering i fremvisningsenhetene. Fremvisningsenheten inkluderer redigert frekvensinformasjon, enten absolutt frekvens eller antall tematiske soner som er utledet med referanse til de ordtypene som er vist frem som ordnet i fasetter.  Grensesnittet er inkludert i spesifikasjonen for en ‘Text Remediation Work Bench’ og med navnet TextSounder som er søkt mønsterbeskyttet.