Prosjektets samling av tekster
En undersøkelse fra 2002 (Gartner Group) viser til at et typisk kjennetegn for informasjonsintensive organisasjoner er at 40% av årsverkene går til håndtering av informasjon formidlet i dokument, og at opp mot 90% av organisasjonens informasjon er formidlet via dokument.
I en innledning om aktiviteter rettet mot å etablere en testsamling av tekster, kan det være verd å vise til begrepene informasjonssamfunn (‘information society’) og den såkalte ‘postwar information explosion’. Begge begrepene var aktuelle i 1958 i anledning opprettelsen av det første ‘Institute of Information Scientists (IIS)’ i England, i følge Ingwersen (1992) første gang begrepet ‘information science’ ble formelt registrert. Begrepet informasjonssamfunn refererer til det fenomen at samfunnet er avhengig av å bruke informasjon som er formidlet i ulike former (tekst, lyd, bilde, video, ol). Begrepet informasjonseksplosjon eller språklige varianter av dette, er i vår tid nærmest uinteressant. Interleaf la i 2002 frem et estimat som viser til: “... more than 1 billion documents are being created each day in North America.” (Blair, 2002).Her viser begrepet dokument til digitale enheter som inneholder en eller flere datatyper (tekst, lyd, bilde, video, ol).
De enorme mengdene digital informasjon (store deler av verden har ennå lav deltakelse i produksjonen) er årsaken til at skaleringsproblemet er essensielt i prosjekt som angår analyse og representasjon av tekstinnhold og metoder/teknikker for informasjonsfiltrering. Det sentrale er søkeselektivitet – hvordan tekstene er representert bestemmer hva søkingen kan være rettet mot. En type søkeselektivitet som fungerer for små dokumentsamlinger ( f eks 1 000-10 000) kan være direkte dysfunksjonell for store dokumentsamlinger (f eks 100 000 til flere millioner). Prosjektet posisjonerte seg presist i forhold til skaleringsproblemet og definerte en ramme for å studere sammenhengen mellom ulike typer av søkeselektivitet og målsystemets størrelse.
Forskningsmiljø rår over store databaser med data relatert til f eks cellebiologi, molekylærbiologi, marinbiologi, museumsdata, tekster relatert til norsk offentlig forvaltning, lovgivende virksomhet, domsmyndighetenes virksomhet, ol. Fortolkningene av kildedata er formidlet gjennom ulike typer av publikasjoner (tekst) som øker verdien av andre typer digitale kilder.
Målgruppen for prosjektet 'Temabasert informasjonsfiltrering' er profesjoner i informasjonsintensive organisasjoner. Slike profesjoner er f eks forskere som på grunnlag av fremsatte forskningsspørsmål har en formening om hvilke tekster som er interessante i en undersøkelse, eller aktører innen offentlig og privat forvaltning som forholder seg til omfattende plansaker, konsesjonssøknader, ol. Det er verd å påpeke at dokument som inngår i slike profesjonskontekster er heterogene både med hensyn til type, innhold og funksjon.
Delprosjekt 1 valgte setninger som tekstlig enhet i segmenteringsprosedyrene og all videre prosessering av tekstene. Forskningslitteratur innen tekstlingvistikk viser til anvendelse av en mengde ulike typer kriterier for tekstsegmentering (oppslitting og merking av tekstlige enheter). Pitkin (1969) hevder f eks at setningsbaserte tilnærmingsmåter er ubrukelige fordi 'forfattere setter seg ikke fore å skrive setninger, de setter seg fore å skrive diskurs. I 2001 ble det foretatt undersøkelser av avsnitt som enhet, bl a pga Hearsts (1994) påstand om at avsnitt er det eneste naturlige segmenteringspunktet i tekst. Tekster fra dokument som hentes ned via Internettet har en utrolig variasjon i bruken av avsnitt, overskrifter og andre overflatemarkører for oppsplitting av teksten.
Det vil bli for vidtrekkende å utdype årsakene til at bruken av avsnitt ble satt til side i en sluttrapport, men det er en særs viktig begrunnelse til dette valget: Enheter som setninger er ressursbesparende fordi dette forutsetter en minimal preprosessering av tekstene før tekstene prosesseres av CG-taggeren.
En reimplementering av prototypversjoner fra Delprosjekt 1 til operative system forutsetter en tekstbase med en viss tidsaktualitet og tematisk dekningsgrad. Markedet tilbyr stadig nye teknologiske løsninger for nedlasting av tekster via nettet og automatisk konvertering til ulike format, inklusiv XML. Delprosjekt 1 fant det derfor uhensiktsmessig å anvende begrensede ressurser til tidkrevende konverteringsarbeid. Prosjektet baserte seg på en realistisk forventning om at ‘tiden’ leder mot stadig større utbredelse av XML som et standard utvekslingsformat (eventuelt et annet standard utvekslingsformat).
Beslutningen om å satse på en forenklet automatisert segmenteringsprosedyre medførte en betydelig reduksjon i arbeidsmengden forbundet med innsamling av tekster og konvertering til XML-format. Segmentering av tekstens setninger i Delprosjekt 1 er ikke relatert til prosedyrer for tematisk tekstsonering som var berammet av Delprosjekt 2.
I henhold til prosjektplanen, ble det foretatt en avgrensing mot tematiske tekstsamlinger for å kunne redusere kompleksiteten til et nivå der det var mulig å overvåke/kontrollere effekten av eksperimentering med underliggende kriterier og prosedyrer som ble realisert i den nye redskapene. Prosjektet hadde behov for or å etablere kunnskap om effektene i mindre tekstsamlinger (pilotstudier) før resultat fra forsøkene kunne rapporteres som anbefalt videreført i storskalaundersøkelser. Prosjektet fulgte en strategi som er anerkjent innen forskningsfeltet informasjonsvitenskap, (se f eks Sparck Jones, 1981).
Testbase i Delprosjekt 1
  • Norske politiske partiprogram (settene av partiprogram fra årene 1993, 1997 og 2001) som var tilgjengelig via NSD (Norsk Samfunnsvitenskapelige Datatjeneste).
    Status: Segmentert og renset, annotert gjennom CG-tagger, kvantitativ prosessering via WordSmith 4.2, tilrettelagt for kvalitativ tekstanalyse i ATLASti med tilgang til subsett av grammatikalsk informasjon og visse ordtyper ordnet i fasetter (semantiske klasser).
  • Samlinger av EU-direktiv (oversatt til norsk) for å undersøke en spesialisert filtreringsopsjon som opererer mot nøkkelord som utledes gjennom kvantitativ prosessering av direktivene.
    Status: Kvantitativ prosessering via WordSmith 4.2 mot et spesialutviklet tekstkorpus med flere sjangere for testing av nøkkelordbasert tekstfiltrering. Tekstmetrikk for 3 600 direktiv.
  • Et lite antall tekster hentet ned fra EUs nettsted for å kunne undersøke tesaurusen navngitt som ‘Hyperpolitics’ er utførlig beskrevet i ‘International Political Science Review, 2000, 21, 3’.
    Status: Segmentert og renset, kvantitativ prosessering via WordSmith 4.2, inkludert i ATLASti sammen med et subsett av Hyperpolitics for å undersøke bruken av predefinerte politiske termer som støtteredskap ved tekstanalyse.
  • Lovtekster, forskrifter, lovforarbeid og offentlige utredninger relatert til petroleumsvirksomheten. Samtlige er offentlige dokument tilgjengelig via ODIN og Lovdata.
    Status: 11 offentlige utredninger er segmentert og renset, annotert gjennom CG- tagger, kvantitativ prosessering via WordSmith 4.2, tilrettelagt for kvalitativ tekstanalyse i ATLASti, filer med subsett av grammatikalsk informasjon er konvertert til tre versjonssett av filer i XML-format.