Prosjektets hovedmålsettinger
I Meltzersøknaden fra desember 2000 ble det fremmet en påstand om at tradisjonelle samfunnsvitenskapelige metoder og teknikker for tekstanalyse ikke utnytter data som blir generert gjennom anvendelse av teknologi som preprosesserer tekstene. Delprosjekt 1 har derfor utviklet programredskap som ekstraherer data som blir generert av:
  • Programvare som foretar grammatikalsk parsing og annotering av tekstene, såkalte grammatikkparsere eller -taggere.
  • Programvare som foretar kvantitativ prosessering av tekstene og beregner absolutt/relativ frekvens, nøkkelordsverdier, kollokasjoner, dvs såkalt tekstmetrikk.
Data om tekstene som blir generert i disse to hovedtypene av programvare, er prosessert videre i nye redskap som er utviklet i tilknytning til Delprosjekt 1.
Prosjektplanen for perioden 1. april 2001 til 1. april 2002 viste til fire hovedaktiviteter.
1. Konstruksjon av testbase med tekst og segmentering.
2. Konvertering av grammatikalsk informasjon.
3. Spesifisering av søkemakroer som støtter tekstanalytiske steg.
4. Bruk av terminologiske databaser (tesauri).
Punkt 4 ble redusert til å inkludere videre undersøkelse av tesaurusen 'Hyperpolitics' utviklet av professor Mauro Calise og professor Theodore J. Lowi med tanke på anvendelser i det EU-finansierte prosjektet CIDEL. Delprosjekt 1 anvendte subsett av NOT (Norsk Olje Terminologi (utviklet ved AKSIS) i en pilotstudie rettet mot dokumentbasert og sjangerbasert informasjonsfiltrering. Resultatene er planlagt videreført i en storskalaundersøkelse over sammendrag fra publikasjoner innen fagområdet medisin (et avgrenset tematisk domene innen medisin).
I det følgende blir det gitt en kort presentasjon av et utvalg resultat fra Delprosjekt 1 per april 2002.