Prosjektet ble drevet ved og administrert av AKSIS, Avdeling for Kultur, Språk og
Informasjonsteknologi, tidligere HIT-senteret (Senter for humanistisk
informasjonsteknologi).
Delprosjekt 1 har hatt følgende medarbeidere:
Prosjektleder Brit Helle Aarskog har hatt ansvar for utarbeidelse av prosjektplaner
og
spesifikasjoner for prosedyrer som opererer mot tekster annotert med grammatikalsk
informasjon kombinert med statistisk informasjon (tekstmetrikk). Per 16. januar 2002
forelå en ny versjon av en modell for organisering av semantiske koder i fasetter og
organisering av søkemakroer i semantiske nett, se figurene 11-14 i vedlagte
figursamling.
1. konsulent Jarle Bareksten har hatt ansvar for programutviklingen. I et prosjekt
som
vektlegger eksperimentell design, vil spesifikasjoner bli justert som følge av innspill fra
personer med allsidig programmeringskompetanse. En operativ prototyp er et
forhandlingsresultat og avspeiler kunnskap fra flere fagområder. Visualisering og
demonstrasjon av resultat i nye prototypversjoner er sentralt i forskning som har som
mål å realisere teori og metode i ny tekstteknologi.
Forskerassistenter Reidar Thorsteinsen og Yngve Ødegård deltok i utviklingen av nye
forskningsredskap innen rammen av Delprosjekt 1, begge med korttidsengasjement.
Yngve Ødegård har deltatt i utprøving av sonderingsprosedyrer innen rammen av
Delprosjekt 2.
Reidar Thorsteinsen utviklet en teknologi for å integrere resultat fra en kvanitativ
prosessering eller behandling av tekst og slik at dette er tilgjengelig for videre
undersøkelser med metoder som gjerne går under betegnelsen kvalitativ tekstanalyse.
Basert på grammatikalske mønster i teksten og med filtrering mot visse semantiske
klasser av ord, er det lagt frem en tilnærmingsmåte for å generere semantiske nett over
innholdet i tekster.
Jarle Nordvik har deltatt i hele prosjektperioden (ulønnet) og med fokus mot redskap
for
nøkkelordbasert tekstfiltrering (tema og sjanger). I hovedoppgaven legger har frem en
tilnærmingsmåte for å kjenne igjen sjangeren og tema i teksten basert på avanserte
beregninger av ordenes frekvens og mønster i tekster. Hans tilnærmingsmåte for
beregning av nøkkelordverdi ('keyness' og 'keyness of keyness') kan tilsvarende
anvendes for å identifisere hovedtema i tekster. Et mål er å undersøke om hans
fremlagte forslag kan anvendes overfor 'subtekster', f eks kapittel, seksjoner i større
utredninger.
Kai Innselset er leksiograf eller terminolog med lingvistisk fagbakgrunn. Han har
deltatt i
utvikling og vedlikehold av NOT- basen. NOT er en tospråklig terminologisk database
innen Oljerelatert Terminologi og inneholder 90 000 termer fordelt på 30 000 begrep. Kai
Innselset var en sentral ressursperson for prosjektet med sin kompetanse innen
terminologi og lingvistikk.
Reidar Thorsteinsen leverte en hovedoppgave innen emnet utvikling av nye redskap for
tekstanalyse med andre forskere som målgruppe (Institutt for informasjonsvitenskap,
karakter 2.0). Jarle Nordvik leverte sin hovedoppgave om dokumentbasert og
sjangerbasert informasjonsfiltrering høsten 2002 (Institutt for informasjonsvitenskap,
karakter 2.1). Yngve Ødegård leverer sin hovedfagsoppgave innen emnet
informasjonsekstrahering i 2004.
Et av prosjektets løsningsforslag for automatisk generering av visse typer
nettverkstrukturer over tekstens innhold ble demonstrert ved konferansen ‘Norsk
Språkbank’ i Bergen, oktober 2002. Prosjektgruppen demonstrerte blant annet
prosedyrer som genererer grafiske visninger av Subjekt-Verb- Objekt konstellasjoner
ekstrahert fra den underliggende teksten (dynamisk ekstraksjon av SVO- strukturer
basert på oppgitte søkemål).