Det har i perioden 2001-2003 vært sendt en rekke prosjektsøknader for finansiering
av
Delprosjekt 2 som har hatt og har følgende målsetting:
"Prosjektet skal undersøke og utvikle
metoder for å identifisere, annotere og
representere tematiske tekstsoner og strukturer mellom soner med referanse til blant
annet teori om argumentasjonsanalyse, retorikkanalyse, fasettklassifisering,
semantiske nett, terminologi, organisering og representasjon av informasjon og
søkeatferd."
Problemfeltet er behovet for nye former for søkeselektivitet i informasjonsintensive
organisasjoner, se seksjon
Prosjektets
samling av tekster i denne sluttrapporten.
Prosjektplanen viser til aktiviteter rettet mot “tematisk avgrensede dokumentsamlinger
og
i samspill med referansegrupper av brukere som har kunnskap om tekstenes innhold og
funksjon. Slike brukere er f eks forskere som på grunnlag av fremsatte
forskningsspørsmål har en formening om hvilke tekster som er relevante i en
undersøkelse, eller aktører innen offentlig og privat forvaltning som forholder seg til
omfattende plansaker, konsesjonssøknader, ol. Dokument som inngår i slike
profesjonskontekster er heterogene både med hensyn til type, innhold og funksjon. Det
vil si at hvert dokument kan dekke flere tematiske domener (tverrsektoriale).”
Problemstillingene i prosjektsøknader er rettet mot klassiske problem angående
relasjoner mellom indeksering, skaleringsproblemet, informasjonsgjenfinning og
informasjonssøkeatferd.
Det har ikke vært mulig å få ordnet finansiering av Delprosjekt 2 via offentlige
finansieringskilder. I oktober 2003 meddelte NFR sitt avslag der prosjektsøknaden fikk en
positiv vurdering, blant annet:
-
Teoretisk velfundert.
- Relevant problemstilling
omkring bedre informasjonsoppmerking i lys av tradisjonelle
indekseringsprinsipp og deres mangler.
- Prosjektet har
et samfunnsnyttig aspekt.
- Sannsynliggjøres
at forskningen vi føre til ny viten og bidra til utvikling av
forskningsmiljøet.
NFR meddelte ikke sin vurdering av prosjektsøknadens relevans i forhold til programmet
KUNSTI (som søknaden oppga som program).
Prosjektet favner et metodisk rammeverk som er relatert til både IR og IE, men tilpasser
valgte tilnærmingsmåter til bestemte profesjonskontekster. Generelt har
metoder/teknikker innen fagfeltet IR (
‘Information Retrieval’)
som mål å filtrere ut et lite
sett potensielt nyttige dokument fra samlinger som spenner over millioner av dokument.
Fagfeltet IE (‘Information Extraction’) angår i større grad metoder/teknikker
rettet mot å
lokalisere nyttige deler av dokumentenes spesifikke innhold – dvs fra dokument som
gjerne på forhånd er lokalisert gjennom bruk av IR (se bl a Gaizauskas, 1998).
Grammatikkparsere er en komplementær teknologi og inngår som en av mange
komponenter i et rammeverk av metoder og teknikker som er rettet mot å forbedre den
deskriptive og diskriminerende presisjonen i dokument- og tekstrepresentasjoner.
Teknologien endrer status kontinuerlig og forskningsmiljø innen IR og IE inkorporerer
nye
typer teknologi ganske umiddelbart dersom dette viser seg å kunne bidra til forbedrede
indekser/dokumentvektorer sett i sammenheng med det komplekse
skaleringsproblemet. F eks, avhengig av dokumentsamlingens størrelse og
heterogenitet, vil en utvidelse av representasjoner med semantisk informasjon kunne
resultere i alvorlige diskrimineringsfeil (‘failure of discrimination’)
fordi i utgangspunktet
ulike dokumentvektorer gjennom de semantiske utvidelsene blir mer lik hverandre
(‘failure of description’).
I samarbeid med Forinnova AS foregår det nå målrettet aktivitet for etablering av
samarbeid med et kommersielt foretak. I perioden april 2003 frem til oktober 2003 har
prosjektleder ferdigstilt en spesifikasjon bestående av 312 komponenter og 551
transisjonsbeskrivelser mellom dem. I tillegg er det utarbeidet en operativ prototyp.
Status er at spesifikasjoner nå kan realiseres i en ‘demonstrator’ som er sentralt
i EUs
sjette rammeprogram. Det betyr overgang til en innledende entreprenørfase og i
samarbeid med en profesjonell aktør med informasjonsintensive organisasjoner som
markedsområde. Prosjektsøknader har omhandlet videre teoretiske studier, videreføring
av arbeidet med å integrere teoretiske tilnærmingsmåter og videreutvikling av metoder
relatert til feltet informasjonsvitenskap og tekstteknologi. Målet har vært å få finansiert
denne aktiviteten under AKSIS.
Uten finansiering fra norske offentlige kilder er det vanskelig å videreføre forskning
og
utvikling av nye tekstteknologiske løsninger som er spesielt tilpasset norskspråklige
tekster. Når rammebetingelsen er ekstern finansiering, må fokus også rettes mot et
markedspotensiale selv om dette går på bekostning av et ønske om fortsatt aktivitet
rettet mot norskspråklige tekster. Eventuell videreutvikling overfor norskspråklige tekster
er derfor utsatt inntil det foreligger finansiering fra aktører som ser seg tjent med slike
teksteknologiske løsningsforslag innen f eks offentlig forvaltning.
Tilbakemeldinger fra profesjoner i informasjonsintensive organisasjoner som har fått
demonstrert den operative prototypen sammen med redegjørelser for videre forsknings-
og utviklingsarbeid har vært entydig positive.