Status for Delprosjekt 2
Det har i perioden 2001-2003 vært sendt en rekke prosjektsøknader for finansiering av Delprosjekt 2 som har hatt og har følgende målsetting:
"Prosjektet skal undersøke og utvikle metoder for å identifisere, annotere og representere tematiske tekstsoner og strukturer mellom soner med referanse til blant annet teori om argumentasjonsanalyse, retorikkanalyse, fasettklassifisering, semantiske nett, terminologi, organisering og representasjon av informasjon og søkeatferd."
Problemfeltet er behovet for nye former for søkeselektivitet i informasjonsintensive organisasjoner, se seksjon Prosjektets samling av tekster i denne sluttrapporten.
Prosjektplanen viser til aktiviteter rettet mot “tematisk avgrensede dokumentsamlinger og i samspill med referansegrupper av brukere som har kunnskap om tekstenes innhold og funksjon. Slike brukere er f eks forskere som på grunnlag av fremsatte forskningsspørsmål har en formening om hvilke tekster som er relevante i en undersøkelse, eller aktører innen offentlig og privat forvaltning som forholder seg til omfattende plansaker, konsesjonssøknader, ol. Dokument som inngår i slike profesjonskontekster er heterogene både med hensyn til type, innhold og funksjon. Det vil si at hvert dokument kan dekke flere tematiske domener (tverrsektoriale).”
Problemstillingene i prosjektsøknader er rettet mot klassiske problem angående relasjoner mellom indeksering, skaleringsproblemet, informasjonsgjenfinning og informasjonssøkeatferd.
Det har ikke vært mulig å få ordnet finansiering av Delprosjekt 2 via offentlige finansieringskilder. I oktober 2003 meddelte NFR sitt avslag der prosjektsøknaden fikk en positiv vurdering, blant annet:
  • Teoretisk velfundert.
  • Relevant problemstilling omkring bedre informasjonsoppmerking i lys av tradisjonelle indekseringsprinsipp og deres mangler.
  • Prosjektet har et samfunnsnyttig aspekt.
  • Sannsynliggjøres at forskningen vi føre til ny viten og bidra til utvikling av forskningsmiljøet.
NFR meddelte ikke sin vurdering av prosjektsøknadens relevans i forhold til programmet KUNSTI (som søknaden oppga som program).
Prosjektet favner et metodisk rammeverk som er relatert til både IR og IE, men tilpasser valgte tilnærmingsmåter til bestemte profesjonskontekster. Generelt har metoder/teknikker innen fagfeltet IR (‘Information Retrieval’) som mål å filtrere ut et lite sett potensielt nyttige dokument fra samlinger som spenner over millioner av dokument. Fagfeltet IE (‘Information Extraction’) angår i større grad metoder/teknikker rettet mot å lokalisere nyttige deler av dokumentenes spesifikke innhold – dvs fra dokument som gjerne på forhånd er lokalisert gjennom bruk av IR (se bl a Gaizauskas, 1998).
Grammatikkparsere er en komplementær teknologi og inngår som en av mange komponenter i et rammeverk av metoder og teknikker som er rettet mot å forbedre den deskriptive og diskriminerende presisjonen i dokument- og tekstrepresentasjoner.
Teknologien endrer status kontinuerlig og forskningsmiljø innen IR og IE inkorporerer nye typer teknologi ganske umiddelbart dersom dette viser seg å kunne bidra til forbedrede indekser/dokumentvektorer sett i sammenheng med det komplekse skaleringsproblemet. F eks, avhengig av dokumentsamlingens størrelse og heterogenitet, vil en utvidelse av representasjoner med semantisk informasjon kunne resultere i alvorlige diskrimineringsfeil (‘failure of discrimination’) fordi i utgangspunktet ulike dokumentvektorer gjennom de semantiske utvidelsene blir mer lik hverandre (‘failure of description’).
I samarbeid med Forinnova AS foregår det nå målrettet aktivitet for etablering av samarbeid med et kommersielt foretak. I perioden april 2003 frem til oktober 2003 har prosjektleder ferdigstilt en spesifikasjon bestående av 312 komponenter og 551 transisjonsbeskrivelser mellom dem. I tillegg er det utarbeidet en operativ prototyp.
Status er at spesifikasjoner nå kan realiseres i en ‘demonstrator’ som er sentralt i EUs sjette rammeprogram. Det betyr overgang til en innledende entreprenørfase og i samarbeid med en profesjonell aktør med informasjonsintensive organisasjoner som markedsområde. Prosjektsøknader har omhandlet videre teoretiske studier, videreføring av arbeidet med å integrere teoretiske tilnærmingsmåter og videreutvikling av metoder relatert til feltet informasjonsvitenskap og tekstteknologi. Målet har vært å få finansiert denne aktiviteten under AKSIS.
Uten finansiering fra norske offentlige kilder er det vanskelig å videreføre forskning og utvikling av nye tekstteknologiske løsninger som er spesielt tilpasset norskspråklige tekster. Når rammebetingelsen er ekstern finansiering, må fokus også rettes mot et markedspotensiale selv om dette går på bekostning av et ønske om fortsatt aktivitet rettet mot norskspråklige tekster. Eventuell videreutvikling overfor norskspråklige tekster er derfor utsatt inntil det foreligger finansiering fra aktører som ser seg tjent med slike teksteknologiske løsningsforslag innen f eks offentlig forvaltning.
Tilbakemeldinger fra profesjoner i informasjonsintensive organisasjoner som har fått demonstrert den operative prototypen sammen med redegjørelser for videre forsknings- og utviklingsarbeid har vært entydig positive.