En undersøkelse fra 2002 (Gartner Group) viser til at et typisk kjennetegn for
informasjonsintensive organisasjoner er at 40% av årsverkene går til håndtering av
informasjon formidlet i dokument, og at opp mot 90% av organisasjonens informasjon er
formidlet via dokument.
I en innledning om aktiviteter rettet mot å etablere en testsamling av tekster, kan
det
være verd å vise til begrepene informasjonssamfunn (‘information society’) og den
såkalte ‘postwar information explosion’. Begge begrepene var aktuelle i 1958 i anledning
opprettelsen av det første ‘Institute of Information Scientists (IIS)’ i England, i følge
Ingwersen (1992) første gang begrepet information science ble formelt registrert.
Begrepet informasjonssamfunn refererer til det fenomen at samfunnet er avhengig av å
bruke informasjon som er formidlet i ulike former (tekst, lyd, bilde, video, ol). Begrepet
informasjonseksplosjon eller språklige varianter av dette, er i vår tid nærmest
uinteressant. Interleaf la i 2002 frem et estimat som viser til: ... more than 1 billion
documents are being created each day in North America. (Blair, 2002).Her viser
begrepet dokument til digitale enheter som inneholder en eller flere datatyper (tekst, lyd,
bilde, video, ol).
De enorme mengdene digital informasjon (store deler av verden har ennå lav deltakelse
i
produksjonen) er årsaken til at skaleringsproblemet er essensielt i prosjekt som angår
analyse og representasjon av tekstinnhold og metoder/teknikker for
informasjonsfiltrering. Det sentrale er søkeselektivitet – hvordan tekstene er representert
bestemmer hva søkingen kan være rettet mot. En type søkeselektivitet som fungerer for
små dokumentsamlinger ( f eks 1 000-10 000) kan være direkte dysfunksjonell for store
dokumentsamlinger (f eks 100 000 til flere millioner). Prosjektet posisjonerte seg presist i
forhold til skaleringsproblemet og definerte en ramme for å studere sammenhengen
mellom ulike typer av søkeselektivitet og målsystemets størrelse.
Forskningsmiljø rår over store databaser med data relatert til f eks cellebiologi,
molekylærbiologi, marinbiologi, museumsdata, tekster relatert til norsk offentlig
forvaltning, lovgivende virksomhet, domsmyndighetenes virksomhet, ol. Fortolkningene
av kildedata er formidlet gjennom ulike typer av publikasjoner (tekst) som øker verdien av
andre typer digitale kilder.
Målgruppen for prosjektet 'Temabasert informasjonsfiltrering' er profesjoner i
informasjonsintensive organisasjoner. Slike profesjoner er f eks forskere som på
grunnlag av fremsatte forskningsspørsmål har en formening om hvilke tekster som er
interessante i en undersøkelse, eller aktører innen offentlig og privat forvaltning som
forholder seg til omfattende plansaker, konsesjonssøknader, ol. Det er verd å påpeke at
dokument som inngår i slike profesjonskontekster er heterogene både med hensyn til
type, innhold og funksjon.
Delprosjekt 1 valgte setninger som tekstlig enhet i segmenteringsprosedyrene og all
videre prosessering av tekstene. Forskningslitteratur innen tekstlingvistikk viser til
anvendelse av en mengde ulike typer kriterier for tekstsegmentering (oppslitting og
merking av tekstlige enheter).
Pitkin
(1969) hevder f eks at setningsbaserte
tilnærmingsmåter er ubrukelige fordi 'forfattere setter seg ikke fore å skrive setninger,
de
setter seg fore å skrive diskurs. I 2001 ble det foretatt undersøkelser av avsnitt som
enhet, bl a pga Hearsts
(1994) påstand om at avsnitt er det eneste naturlige
segmenteringspunktet i tekst. Tekster fra dokument som hentes ned via Internettet har
en utrolig variasjon i bruken av avsnitt, overskrifter og andre overflatemarkører for
oppsplitting av teksten.
Det vil bli for vidtrekkende å utdype årsakene til at bruken av avsnitt ble satt til
side i en
sluttrapport, men det er en særs viktig begrunnelse til dette valget: Enheter som
setninger er ressursbesparende fordi dette forutsetter en minimal preprosessering av
tekstene før tekstene prosesseres av CG-taggeren.
En reimplementering av prototypversjoner fra Delprosjekt 1 til operative system
forutsetter en tekstbase med en viss tidsaktualitet og tematisk dekningsgrad. Markedet
tilbyr stadig nye teknologiske løsninger for nedlasting av tekster via nettet og automatisk
konvertering til ulike format, inklusiv XML. Delprosjekt 1 fant det derfor uhensiktsmessig å
anvende begrensede ressurser til tidkrevende konverteringsarbeid. Prosjektet baserte
seg på en realistisk forventning om at ‘tiden’ leder mot stadig større utbredelse av XML
som et standard utvekslingsformat (eventuelt et annet standard utvekslingsformat).
Beslutningen om å satse på en forenklet automatisert segmenteringsprosedyre
medførte en betydelig reduksjon i arbeidsmengden forbundet med innsamling av tekster
og konvertering til XML-format. Segmentering av tekstens setninger i Delprosjekt 1 er
ikke relatert til prosedyrer for tematisk tekstsonering som var berammet av Delprosjekt 2.
I henhold til prosjektplanen, ble det foretatt en avgrensing mot tematiske tekstsamlinger
for å kunne redusere kompleksiteten til et nivå der det var mulig å overvåke/kontrollere
effekten av eksperimentering med underliggende kriterier og prosedyrer som ble realisert
i den nye redskapene. Prosjektet hadde behov for or å etablere kunnskap om effektene i
mindre tekstsamlinger (pilotstudier) før resultat fra forsøkene kunne rapporteres som
anbefalt videreført i storskalaundersøkelser. Prosjektet fulgte en strategi som er
anerkjent innen forskningsfeltet informasjonsvitenskap, (se f eks
Sparck Jones, 1981).