Det historisk-filosofiske fakultet ved Universitetet i Bergen opprettet 1997 et forskningsprogram for humanistisk informasjonsteknologi («HIT-programmet»). Programmets målsetting er å styrke dagens forskning på digital informasjonsteknologi innen humanistiske fag.
1. januar 1998 ble HIT-senteret opprettet. Senteret tilbyr prosjektstøtte både av teknisk, administrativ og faglig art innenfor avanserte IT-prosjekter og fungerer som en service-enhet for forskningsprogrammet. HIT-senteret skal også bidra til å utvikle den nasjonale infrastrukturen for bruken av IT innen humanistiske fag og bidra til å opprette kontakt mellom norsk og internasjonal forskning på dette området.
I tillegg til å være en service-enhet for forskningsprogrammet, har HIT-senteret egne forskningsprosjekter som spenner over følgende områder:
HIT-senteret er organisert som en seksjon i UNIFOB. De tidligere separate enhetene Humanistisk datasenter og Norsk termbank ble i 1998 slått sammen, og danner grunnstammen i HIT-senteret. I tillegg har HIT-senteret et nært samarbeid med Wittgensteinarkivet, et forskningsprosjekt ved Filosofisk institutt som inngår i HIT-programmet. Wittgensteinarkivets årsmelding er presentert bakerst i denne brosjyren.
Programrådet har det overordnede faglige og ressursmessige ansvar for forskningsprogrammet og for HIT-senteret. Rådet hadde følgende medlemmer i 1998:
Personalet i 1998 utgjorde til sammen 19,5 årsverk. De vitenskapelige stillingene bestod av ca 5 årsverk (inkl faglig leder), fagkonsulentstillingene ca 10 årsverk, de administrative stillingene ca 3,5 årsverk, og en edb-teknisk stilling utgjorde 1 årsverk.
HIT-senteret fikk i 1998 sine inntekter
fra tre
hovedkilder:
Inntekter:
| NFR, grunnbevilgning |
2 260 000 |
|
Universitetet i Bergen |
2 082 526 |
|
Eksterne oppdragsgivere |
6 037 762 |
|
Sum inntekter |
10 380 288 |
|
Budsjettavsetning/overført fra 1997 |
1 167 954 |
|
Disponible midler |
11 548 242 |
|
Lønnsutgifter |
6 321 399 |
|
Driftsutgifter |
3 493 846 |
|
Teknisk utstyr/progr./service |
826 470 |
|
Sum utgifter |
10 641 715 |
|
Budsjettavsetning/overført til 1999 |
906 527 |
|
Disponible midler |
11 548 242 |
Ved inngangen til året 1998 var HIT-senteret spredt over to bygninger. Senteret fungerte som en administrativ ramme rundt flere forskningsenheter med sine egne, lange tradisjoner. Ved utgangen av året var HIT-senteret blitt en integrert gruppe lokalisert under samme tak. Denne utviklingen gjenspeiles i denne årsmeldingen. Til forskjell fra den forrige skiller den ikke mellom det som før var ulike enheter, men som nå er sammenslått til HIT. Wittgensteinarkivet har imidlertid sin egen årsmelding på samme måte som for 1997.
HIT-senteret er for en stor del finansiert av tildelte midler på grunnlag av enkeltstående søknader. En slik institusjon vil aldri være helt fri for bekymringer, og mye arbeid har vært lagt ned i å sikre en fornuftig videreføring av aktivitetene fra 1998 i det nye året. I det store og hele har 1998 likevel vært et konsolideringsår for HIT. På overflaten har det hersket kontinuitet, selv om vi har prøvd å strømlinjeforme mange aktiviteter, avslutte mindre prosjekter og slå sammen de minste prosjektene til større og mer sammenhengende aktiviteter.
Kontinuitet, ikke stagnasjon. At dette utsagnet er holdbart,
vil gå klart frem av de neste sidene, som beskriver en rekke prosjekter
påbegynt i 1998,
f eks Malvine, som styrker HITs rolle i EU-finansierte aktiviteter; Ibsen-prosjektet, som vektlegger HITs rolle som del av den nasjonale infrastrukturen utenfor Universitetet i Bergen; aktivitetene innenfor digitalisering av manuskripter, som har fått HIT inn på arenaen innenfor et nytt fagfelt og sørget for kontakt med nye samarbeidspartnere.
At ting ikke har stagnert, går enda klarere frem når man ser på den interne strukturen i noen av prosjektene. Det har vært lagt ned et betydelig arbeid i å omstrukturere dem slik at de vil kunne tilpasse seg fremtidige endringer i kravene til forsk&ningsfinansiering på en smidig måte.
På slutten av 1998 ble undertegnede, som hadde vært fungerende leder for HIT siden slutten av 1997, ansatt som permanent faglig leder. Dette må også ses på som et ledd i konsolide&ringsprosessen.
Prosjekter ved HIT-senteret i 1998
Nedenfor følger en oversikt over prosjekter utført av, eller i regi av, HIT. På samme måte som for 1997 er det bare gitt en kortfattet beskrivelse av de fleste prosjektene, mens tre prosjekter har fått en mer omfattende omtale. Disse tre prosjektene er knyttet til følgende aktiviteter:
Gjennom sin deltakelse i det nasjonale, norske Ibsen-prosjektet har HIT videreført og styrket sitt engasjement innenfor utgivelsesfilologi. HIT har fått ansvaret for det tekniske opplegget i prosjektet. Ved at vi har bidratt med teknisk kunnskap for utgivelsesprosjekter utenfor Universitetet i Bergen, mener vi også å ha vist vei for hvordan HIT kan styrke sin rolle som del av en større nasjonal infrastruktur for humanistisk informasjonsteknologi, som kan komme alle forskere innenfor humanistiske fag i Norge til gode.
Den tradisjonen som Norsk termbank har stått for, er innenfor HIT videreført i form av utvidelse og vedlikehold av den terminologiske databasen NOT. Denne er nå tilgjengelig via Internett, gjennom programvare som er spesialutviklet ved HIT. Disse to aktivitetene, terminologiarbeid og programvareutvikling, utgjør til sammen NOT-prosjektet. I 1998 har dette prosjektet lykkes i å gjøre en ny versjon av det terminologiske materialet tilgjengelig for brukerne, og å komme mer aktivt med i samarbeid med andre prosjekter, både i inn- og utland.
HIT har også engasjert seg aktivt i den verdensomspennende satsningen på omfattende digitale ressurser (avanserte web-baserte databaser) for forskning innenfor humanistiske fag. Dette engasjementet gjenspeiler seg i en rekke aktiviteter som er gjensidig forbundet: HIT-senteret har ikke bare organisert internasjonale sammenkomster og prosjekter, men også bygd opp maskinvareressurser og ekspertise som vi kan tilby til andre interesserte innenfor dette området.
Detaljert gjennomgang av tre utvalgte prosjekter i 1998
Prosjektet dreier seg om en ny historisk-kritisk og kommentert utgave av alle Henrik Ibsens skrifter, trykte og utrykte: skuespill, dikt, artikler, foredrag, brev, utkast, notater.
Henrik Ibsens skrifter er det hittil største utgivelsesprosjekt i Norge. Det blir finansiert av Norges forskningsråd i samarbeid med universitetene i Oslo, Bergen og Trondheim, samt Nasjonalbiblioteket. Prosjektet ledes av professor Vigdis Ystad og har en stab av vitenskapelige medarbeidere fra de nevnte universiteter og Nasjonalbiblioteket og av spesielt tilsatte forskningsassistenter. I tillegg er en rekke spesialister engasjert til å skrive kommentarer innenfor sine fagområder. Arbeidet ble påbegynt i april 1998 og er planlagt å strekke seg over en tiårsperiode. En stor del av utgaven vil foreligge ferdig ved hundreårsmarkeringen av dikterens død i 2006.
Utgaven vil bli publisert både i bokform og elektronisk. Bokutgaven vil etter planen bestå av ca 12 tekstbind og like mange kommentarbind.
Alle Ibsens tekster trykkes etter nøye gransking av foreliggende utgaver fra dikterens levetid og av manuskripter. Så langt det er mulig, legges første trykte utgave til grunn. Bokutgaven vil ha et avgrenset variantapparat, mens den elektroniske utgaven vil inneholde alle varianter som full tekst (se nedenfor).
Tekstene vil bli ledsaget av innledninger med beskrivelse av manuskripter og utgaver, redegjørelse for tilblivelse, forleggere, salgstall og honorarer, genre, teateroppførelser, musikk m.m.
I motsetning til den vitenskapelige standardutgaven som brukes i dag, den såkalte Hundreårsutgaven, vil alle tekstene få ord- og sakkommentarer. Det vil blant annet bli redegjort for ord som nå har en annen betydning eller gir andre assosiasjoner enn på Ibsens tid, og for sitater og henvisninger i teksten. Kommentarene skrives med tanke på et internasjonalt publikum.
Henrik Ibsens skrifter vil komme ut i separate tekst- og kommentarbind. Det skal være mulig å kjøpe enkeltbind eller avgrensede deler av utgaven. Utgiverne legger vekt på design og utstyr, og ønsker at utgaven skal fremstå som et eksempel på fremragende norsk bokkunst.
Foruten bokutgavens tekst, innledning og kommentarer vil den elektroniske utgaven inneholde transkripsjoner av alle kjente manuskripter og alle trykte versjoner fra Ibsens levetid. Hele Ibsens tekstproduksjon, fra hans første ord på papiret til og med siste trykte utgave før 1906, skal dokumenteres. De elektroniske tekstene blir kodet med tanke på ulike søkemuligheter, og brukeren skal kunne bevege seg frem og tilbake mellom de forskjellige stadier i verkenes tilblivelse. Pekere til faglitteratur vil bli lagt inn.
Databasen vil også inneholde digitaliserte bilder. Her skal finnes faksimiler av alt kjent manuskriptmateriale fra Ibsens hånd, inklusive hans tegninger og malerier. Det tas også sikte på å vise andre bilder som belyser dikteren og hans verk.
Henrik Ibsen er den norske forfatter som har oppnådd størst internasjonal utbredelse. Hans verker oppføres på scener verden over, leses i en mengde forskjellige oversettelser og er gjenstand for studium og forskning i alle verdensdeler. Ibsens eget språksamfunn har en særskilt plikt til å sørge for at det finnes en vitenskapelig utgave med pålitelig tekst og utførlige kommentarer. Den nye Ibsen-utgaven vil bli referansetekst for alle som leser norsk, og vil med dokumentasjonen av sammenhengen mellom diktverk og omverden gi oversettere bedre mulighet til å gjenskape innholdet og assosiasjonsrikdommen i Ibsens språk.
Forkortinga NOT refererer til to ulike, men nært samanknytte fenomen: Norsk termbanks termdatabase NOT («NOT-basen»), og utviklingsprosjektet Norsk terminologisk database. Struktur og applikasjonar, finansiert av Meltzer-fondet for åra 1997--1999 («Meltzer-NOT»). Desse to prosjekta har til saman utgjort det mest typisk terminologiske prosjektet ved HIT-senteret i 1998.
Prosjektet Meltzer-NOT har to siktemål, eit internt og eit eksternt. Det interne er å utnytta og tilretteleggja det akkumulerte terminologiske materialet i NOT-basen for anvende og teoretiske forskingsformål. Det eksterne er å utvikla ein prototyp på ein fleksibel, fleirspråkleg og distribuert termdatabase, som skal fungera både som arbeidsverktøy i terminologiarbeid og som terminologisk oppslagsverk.
Termdatabasen NOT er ei elektronisk «fagordbok» (engelsk/norsk, norsk/engelsk). Den vart utvikla ved Norsk termbank frå 1984-85, særleg frå 1987. Ein Windows-versjon var utvikla i 1994 og kommersielt tilgjengeleg i diskettutgåve.
Termbasen er strukturert etter viktige terminografiske prinsipp. Materialet er inndelt i 38 fagområde. Totalt inneheld basen ca 30 000 termpostar med totalt ca 90 000 termar, hovudsakleg på engelsk og norsk. Kvar einskild post dekkjer alle opplysningar om eit gitt fagleg omgrep, dvs. ekvivalentar, synonym, referansar, definisjonar og redaksjonelle kommentarar. Desse informasjonskategoriane tilsvarer ulike felt i termposten.
I 1998 vart redaksjonsarbeidet med termbasen teke opp igjen. Fokus vart retta mot kvalitativ revisjon i form av omgrepsanalyse og samanslåing av dobbeltpostar, samt innlegging av argumentstrukturar. Det vart også lagt inn ein del nye termar frå fagområdet medisin. Arbeidet med administrative rutinar for basen har gått parallelt med dette arbeidet. Både den kvalitative og kvantitative opprustninga av basen vil halda fram i 1999.
I 1998 er det utvikla ein Internett-versjon av basen, som førebels er tilgjengeleg som prøveversjon. Det er planen å gjera denne versjonen kommersielt tilgjengeleg i 1999, og det er derfor under arbeid eit elektronisk betalingsystem. Når denne Internett-tilgjengelege versjonen av NOT-basen er operativ, vil diskettutgåva etter kvart gå ut or bruk.
Med finansiering frå EU-programmet (MLIS = MultiLingual Information Society) går det no føre seg eit nordisk arbeid med å utvikla ein samnordisk termbank. Prosjektet har namnet Nordterm-Net og er koordinert frå Stockholm. Føremålet er m.a. å laga et felles web-grensesnitt for flest mogeleg nordiske terminologisamlingar.
Prosjekt Meltzer-NOT har delteke i dette arbeidet med ein underleveranse, og vår Internett-tenar vart i 1998 rangert som nr. to i konkurranse om demo-webtenar for eit representativt utval nordiske terminologidatabasar. Det er gode utsikter til at tenaren vår vert brukt når den endelege programvara skal veljast om ca eitt år.
I 1998 er det utvikla og ferdigstilt eit program for terminologisk redigering. Programmet har vore i bruk både innanfor NOT-prosjektet og i NORDLEXIN-prosjektet. Den valde databasearkitekturen og arkitekturen av redigeringsprogrammet er altså fleksibel nok til å hanskast både med terminologiske og leksikografiske databasar. I tillegg skal programmet takast i bruk hos Omsetjingstenesta i Utanriksdepartementet innan årsskiftet.
Det er vorte utvikla ein Internett-tenar for terminologiske databasar. Tenaren nyttar den same databasearkitekturen som redigeringsverktøyet. I motsetnad til redigeringsverktøyet er Internett-tenaren ikkje fastlåst til Windows, men kan lett flyttast over til dei fleste plattformer. I utviklinga av Internett-tenaren er det like eins lagt vekt på ein fleksibel og åpen arkitektur.
Utviklinga av eit integrert terminologihandteringssystem er igangsett. Her er det spesielt database-grensesnittet og søkemodulen som er utvikla, sidan desse modulane òg vert brukte i web-tenaren.
Eit anna viktig mål for prosjektet er å utvikla metodar for korpusbasert terminologiarbeid, og å gjera NOT-basen tilgjengeleg for korpusbasert forsking i norsk språk. I 1998 vart eit utval norske, komplekse termar koda for argumentstrukturar, etter eit system som vart tillempa og tilrettelagt i prosjektet. Dei førebels resultata er lovande, og dei vil kunna nyttast i arbeidet med korpussystem for norsk. Kontakten med mogelege interessentar vil verta prioritert i 1999. For å kontrollera konsistensen av dei innlagde argumentstrukturane er det òg utvikla ein parser og eit visualiseringsprogram som lett avslører syntaktiske og semantiske feil.
Dette arbeidet krev at det ligg føre elektronisk, maskinleseleg tekst som programmet kan testast på. All tekst må inntil vidare skannast inn og redigerast. Av teknisk tekst er det oppnådd løyve frå Statoil til å bruka systemhandbøker, og frå Oljedirektoratet til å bruka regelverksamlinga. Det vert arbeidd med rettigheitsspørsmål på meir generell basis ved HIT-senteret.
Resultata av prosjektet ber i seg viktige arbeidsoppgåver som kan førast vidare, og som det er stor trong for internasjonalt. Ei av dei viktigaste oppgåvene vil vera å utvikla maskinelle metodar for semiautomatisk ekstrahering av termar frå tekst. Då må det finnast eit utbygd elektronisk fagtekstkorpus, som altså er påbegynt, og ei datalingvistisk ordbok, som det vert arbeidd med i andre fagmiljø i Noreg.
Tilgjengeligheten til materiale som kun eksisterer i ett eneste eksemplar, har lenge vært et implisitt problem innenfor store deler av humanistisk forskning. Mange forskningsobjekter innenfor humanistiske fag har visuelle egenskaper, og det er ikke alltid like lett å skille mellom de av disse egenskapene som er meningsbærende og de som bare har en dekorativ funksjon. Manuskriptkilder (både i biblioteker og arkiver) er kanskje ett av de beste eksemplene på dette fenomenet. Utgivelsesprosjekter, som er godt representert blant HITs aktiviteter, har derfor en lang tradisjon innenfor mange humanistiske fag. Helt frem til ganske nylig har slike prosjekter vært drevet på grunnlag av en bakenforliggende antakelse som var så selvinnlysende at man sjelden snakket om den, nemlig: Å transkribere eller beskrive innholdet av et manuskript eller et bilde er en mye billigere måte å få materialet ut til brukerne på enn å reprodusere materialets visuelle presentasjon.
I dag er dette ikke lenger tilfelle. Med de mulighetene vi nå har for å fotografere, behandle og vise visuelle objekter på dataskjermen, er denne grunnleggende antakelsen i ferd med å bli historie. HIT har derfor gitt seg i kast med en hel rekke aktiviteter med sikte på å bli en høyverdig aktør innenfor systematisk digitalisering av manuskriptressurser, en aktivitet som nå er i rivende utvikling i mange europeiske land.
I 1998 ble det gjennomført en hel rekke slike aktiviteter:
For å legge grunnlaget for fremtidig samarbeid, spesielt med henblikk på europeiske finansieringsmuligheter, organiserte HIT et arbeidsseminar om digitalisering av manuskriptressurser i februar 1998 i Ravenna, Italia.
Her møttes representanter fra ca 50 humanistiske forskningsinstitusjoner og tilhørende teknologisk infrastruktur, samt representanter fra biblioteker og forlag, fra i alt 10 europeiske land. Etter en intens og fruktbar diskusjon ble man her enig om felles prinsipper for fremtidig arbeid under navnet «European Manuscript Server Initiative».
For å teste ut de prinsippene som ble definert på dette seminaret, deltok HIT i et pilotprosjekt sammen med tre italienske manuskriptbibliotek. I løpet av dette prosjektet ble det utviklet en modell for presentasjon av store mengder manuskriptmateriale i digital form. (Demonstrasjonsmateriale er tilgjengelig via HITs hjemmeside.)
Samtidig ble gruppen som ble dannet under seminaret i Ravenna brukt som referansegruppe for utforming av felles finansieringssøknader, både innenfor EUs rammeverk og bilateralt, for individuelle søknader innenfor finansieringsrammeverkene til de enkelte institusjonene. Når dette skrives, vet vi at noen av disse søknadene fikk gjennomslag, men dette har sin naturlige plass i neste års rapport.
Dette medførte investeringer både på maskinvare- og ekspertisefronten. Når det gjaldt maskinvare, anskaffet HIT et elektronisk høyoppløsningskamera (stasjonært digitalkamera), som dannet grunnlaget for det ovennevnte pilotprosjektet. Vår holdning er at slikt utstyr bare bør kjøpes inn hvis man er sikker på at det vil være i mer eller mindre kontinuerlig bruk. HIT stiller derfor dette kameraet til rådighet (etter søknad) for forskningsenheter ved andre norske institusjoner. Kameraet vil langt ut i 1999 bli brukt av prosjekter ved Universitetet i Oslo. Dette kan ses på som et bidrag til en generell norsk infrastruktur, men det er også en oppfyllelse av prinsippet om at man ikke skal gå til innkjøp av avansert utstyr med mindre man har garanti for at det vil være i permanent og kontinuerlig bruk. En av de mer verdslige oppgavene til en institusjon som HIT er nettopp det å legge til rette for økonomisk bruk av ressurser, noe som ikke alltid er lett å få til innenfor et enkeltstående forskningsprosjekt.
HIT-senteret har også gått i gang med å utvikle Java-basert programvare som på mange måter vil lette bruken av omfattende digitale ressurser. Eksempelvis dreier det seg her om å utvikle verktøy for håndtering av relasjoner mellom enkeltstående digitale objekter, teknisk beskyttelse av eiendomsretten til enkeltstående objekter og innledende eksperimenter med bildesammenligning.
Inntil et større prosjekt blir finansiert for å lage et norsk korpus, er målet å samle inn tekster på en måte som involverer et minimum av manuelt arbeid. Det er derfor lagt vekt på å få tak i tekster i elektronisk form.
Høsten 1998 ble det tatt i bruk IMS Corpus WorkBench (CWB) for søking i større tekstsamlinger. Det ble utviklet et web-grensesnitt mot søkingen. Materiale fra Bergens Tidende fra 1995 og utover (2 millioner ord per år) og Aftenposten ble konvertert til CWB. Det er satt i gang et automatisert opplegg for å hente tekster via web fra sju aviser, konvertere tekstene og indeksere disse for søking. Samlingen øker med omtrent en million ord i uken. Totalt er over 30 millioner ord indeksert i 1998 og gjort søkbare med CWB. Tekster som er innsamlet og arkivert gjennom flere år, vil utover våren 1999 bli tilføyd denne tekstbasen.
HIT-senteret er deltaker i et forprosjekt for å lage en søknad til Norges forskningsråd om et nasjonalt korpus for språkteknologi.
International Computer Archive of Modern and Medieval English (ICAME) består av 18 korpus med størrelse fra 50 000 ord til 1,5 millioner ord. Totalt utgjør dette materialet omtrent 14 millioner ord. HIT-senteret fungerer som sekretariat og sørger for salg av data og program. I løpet av 1998 er det mottatt materiale til den nye CD-ROM-versjonen av ICAME. Ved å utsette produksjonen et halvt år er det blitt lagt til tre nye korpus. Elektroniske versjoner av håndbøker er konvertert til HTML-format. Eldre håndbøker som kun forelå i trykte utgaver er blitt skannet og kodet i HTML. Det er gjort avtale med Oxford University Press om distribusjon av den fulle versjonen av programvaren WordSmith på CR-ROM-versjonen av ICAME. Innholdet av den nye CDen ble presentert på ICAME-konferansen i Belfast i mai. HIT-senteret har også hatt løpende kontakt med brukere og potensielle kjøpere av den første CD-ROMen.
Engelsk-norsk parallellkorpus (ENPC) er et samarbeid mellom HIT-senteret og Institutt for britiske og amerikanske studier ved UiO. Prosjektet har bygd opp et korpus av originaltekster med tilhørende oversettelser og består av 100 par tekster som totalt inneholder omtrent 2,6 millioner ord. Korpuset brukes både til oversettelsesstudier og til kontrastive studier basert enten på sammenlignbare originaltekster i to språk eller en tekst og dens oversettelse. HIT-senteret har spilt en sentral rolle i utviklingen av programvare og har i 1998 arbeidet videre med å utvikle program for sammenstilling («alignment») av ord (med utgangspunkt i de allerede sammenstilte setningene). Det komplette ENPC er nå tilgjengelig for søking for forskere ved UiB. I 1998 ble prosjektet blant annet presentert på konferansen TALC98 i Oxford, og det ble også skrevet en artikkel om automatisk sammenstilling av parallelltekster.
HIT-senteret har i flere år hatt et samarbeid med Romansk institutt, UiB, om å starte oppbyggingen av et fransk-norsk parallellkorpus basert på arbeidet med det engelsk-norske parallellkorpus-prosjektet (ENPC). Senteret har viderebehandlet fransk-norske tekster slik at det ved årsskiftet var 30 parallelltekster som var klargjort for sammenstilling («alignment») og for søking. I tillegg har HIT-senteret hatt ansvar for brukerveiledning.
HIT-senteret deltar i Academic Development Group (ADG) for programsystemet COSMAS II (Corpus Storage, Maintenance, and Access System), et programsystem for søking i SGML-kodet tekst som er utviklet ved Institut für deutsche Sprache i Mannheim. Senteret var vertskap for et møte i ADG i mai. Programmet er testet ut med tekster fra det engelsk-norske parallellkorpuset ENPC og British National Corpus (BNC). Pga omorganisering og stramt budsjett har Institut für deutsche Sprache måttet avslutte det eksterne samarbeidet om COSMAS II. Videre testing og bruk av programmet har dermed blitt foreløpig avsluttet.
The Bergen Corpus of London Teenage Language (COLT) er et talespråkskorpus basert på spontane samtaler mellom 13-17-åringer i London. Korpuset består av omtrent 500 000 ord. HIT-senteret tilrettelegger korpuset for søking med TACTWeb og har også foretatt systematiske rettelser og kontroller. Prosjektet er et samarbeid med Engelsk institutt, UiB. I 1998 er det blitt laget flere indekserte versjoner for søking via WWW, både i en «utagget» og en «tagget» utgave av tekstene. Det er blant annet blitt utviklet programmer for å sjekke antall ord i de to versjonene av tekstene, samt kontroll av tekstmerking («markup»). Det er laget to sett CD-ROM (hvert på 15 CDer) med lyd som er blitt digitalisert ved Engelsk institutt, UiB. Det er også laget en prøve på indeksert tekst og kopling til lyd i IMS CWB. Et ekstra kopisett av CDene med digitalisert lyd er sammen med teksten sendt til et firma i England for tidskoding av teksten. Det er også laget sett med CDer med digitalisert lyd fra prosjektet Ungdomsspråk i Norden.
Malvine (Manuscripts and Letters Via Integrated Networks in Europe) er et EU-støttet prosjekt som tar sikte på å utarbeide et integrert flerspråklig brukergrensesnitt mot manuskriptsamlinger ved en rekke europeiske museer, arkiver og lignende institusjoner. Prosjektpartnerne består av tolv europeiske faginstitusjoner fra ulike land og tre tekniske partnere, hvorav HIT-senteret er den ene. HIT-senteret er ansvarlig for utvikling av verktøy for konvertering av samlingskatalogene til SGML/XML-versjonene, og undersøke hvilke bruksmuligheter SGML/XML- versjonene av disse åpner for. Prosjektet startet opp i juli 1998.
Målet med MUSVED-prosjektet (MUSVED: Vedlikehold av museumsdatabaser) er å videreutvikle og vedlikeholde et databaseprogram for dataføring av kulturhistorisk kildemateriale i form av foto, gjenstander, kunstindustri- og boksamlinger. Prosjektet drives i samarbeid med Norsk museumsutvikling (NMU). I 1998 er databaseprogrammet winRegimus lagt over på en ny utgave av utviklingsverktøyet (OpenInsight for Workgroups v. 3.6). Det er også lagt inn ny funksjonalitet i form av bedre eksportrutiner, automatisert innlegging av bildereferanser og effektiviserte søkerutiner.
HIT-senteret har samarbeidet med Primus-prosjektet ved Norsk Folkemuseum om ny nasjonal feltstandard for museumsdatabaser. Arbeidet med et registreringsoppsett for privatarkiv har vært konsentrert om innledende konsept og registreringsskjema for ulike arkivserienivå. I arbeidet med web-grensesnitt mot winRegimus-databaser er det utarbeidet databasekonsept og funksjoner for datafiltrering.
Det er blitt holdt 7 kurs i bruken av winRegimus med i alt 92 deltakere.
Prosjektet «Gamle naboer» er et pilotprosjekt som ble satt i gang av Bergen Museum våren 1998. Hovedmålet er å bruke informasjonsteknologi som springbrett for å gjøre museumssamlinger mer tilgjengelig for skoleelever i prosjektorientert undervisning der prosjektresultatene skal tilrettelegges med IT-verktøy. Prosjektet er et samarbeidsprosjekt mellom Bergen Museum og HIT-senteret. I 1998 er det blitt utviklet web-prøvesider og uttrekksoppsett som kan bruke det kodede materialet fra Museumsprosjektet (tilrettelagt i Dokumentasjonsprosjektet): Fett-hefter, tilvekstfortegnelsen og topografisk arkiv som kilde for opprettelse av web-sider. Etter en tilpasning av de uttrekksfiltrene som har vært prøvd ut, vil man kunne generere et fullstendig sett med web-sider automatisk.
I forbindelse med «Gamle Naboer» mottok HIT en bevilgning på NOK 40 000 fra ITU. En del av beløpet er brukt i forbindelse med møter med representanter fra skoler i Hordaland. Det resterende beløpet vil bli brukt i forbindelse med testoppstart med materialet ved noen av skolene.
Humanistisk datasenter fikk fra januar 1993 innvilget støtte fra RHF - NAVF til det treårige prosjektet «Databehandling av runeinnskrifter ved Historisk museum i Bergen». Prosjektets mål var:
Som et ledd i dette arbeidet vil det bli bygd opp en database over runeinnskriftene ved Historisk museum der det blir lagt spesiell vekt på runeformene både ved at det lagres fotografier av innskriftene og riss av innskrifter og enkeltruner.
Resultater fra prosjektet er tidligere presentert trykt og på Internett i rapporten: Runer i Bergen (engelsk utgave: Runes in Bergen).
I 1998 ble data fra prosjektet analysert med statistiske verktøy ved University of Glasgow. Resultatene ble presentert på konferansen Digital Resources in the Humanities 1998 i Glasgow og vil bli trykt som en artikkel i 1999.
De tidligere utviklede verktøyene for avgrenset gjenfinning er blitt forbedret ved at de nå er supplert med statistikk-orienterte gjenfinningsverktøy. Andre forbedringer er gjort som følge av arbeidet med det underliggende taggingssystemet for de anvendte korpuser. Det viktigste i 1998 har likevel vært at de tidligere oppnådde resultatene faktisk er blitt brukt til å utvikle et korpusbasert programmerbart undervisningssystem for engelsk grammatikk. Arbeidet med dette prosjektet i Bergen ble avsluttet i 1998. Prosjektet ble ledet av forsker Hong Liang Qiao. Han driver nå med videre forskning ved Microsoft Research Institute, Macquarie University, Sydney, Australia.
SCARRIE er et EU-støttet FoU-prosjekt. Målet med prosjektet er å lage korrekturlesingsverktøy for dansk, norsk og svensk. SCARRIE utforsker nyttige feildeteksjons- og opprettingsmekanismer på ord- og setningsnivå. Disse mekanismene integreres i en plattform som opprinnelig ble utviklet for nederlandsk av Cognitech. Prosjektet avsluttes våren 1999.
Det største prosjektet ved HIT-senteret i 1998 var fortsettelsen av ordboksprosjektet NORDLEXIN. Tre leksikografer, en programmerer og en svenskspråklig konsulent var engasjert i prosjektarbeidet. Oppdragsgiver var Kirke-, undervisnings- og forskningsdepartementet. Det spesielle ved prosjektet NORDLEXIN er at det er selve det svenske kildespråksunderlaget for ordboksserien LEXIN som blir overført til norsk. Ordboksunderlaget er tilført nye norske poster for at det norske lemmautvalget skal være representativt. En sentral målsetting er at det automatisk skal kunne genereres norsk-utenlandske ordbøker til de språkene som er tilgjengelige i databaseunderlaget. Den svenske ordboksserien LEXIN dekker til nå rundt 20 minoritetsspråk.
Det som skiller LEXIN-ordbøkene fra andre ordbøker, er at de er spesielt utarbeidet for minoritetsspråklige innvandrere og flyktninger. Mange av disse har ingen erfaring fra studium av fremmede språk eller i bruk av ordbøker, og har begrenset leseevne også på sitt eget morsmål. Utvalget av oppslagsord er direkte relatert til målgruppens behov. I tillegg til de frekvente ordene er det tatt med spesielle ord som innvandrere må kjenne til for å kunne orientere seg i det norske samfunnet.
Ved årsslutt inneholdt den norske ordbasen 15 200 oppslagsord med definisjoner, språkeksempler og opplysninger om bøyning og uttale. Den største svenske ordbasen inneholder ca 30 000 oppslagsord. Trolig vil ordbøkene i Norge bli utgitt både i trykt og elektronisk utgave.
HIT-senteret har avsluttet arbeidet med første versjon av NMT, en norsk miljøtesaurus der deskriptorene er hentet fra den felleseuropeiske miljøtesaurusen GEMET og ulike norske emneordlister brukt innenfor miljøsektoren. Prosjektet ble gjennomført i nært samarbeid med Norsk allmennstandardisering (NAS). Arbeidet i 1998 omfattet foruten innlegging av nye deskriptorer også inkorporering synonymer og «se også»-relasjoner.
NCSP-N er den norske utgaven av «The NOMESCO Classification of Surgical Procedures» (NCSP).
På oppdrag fra Kompetansesenteret for IT i helsesektoren (KITH) foretok HIT-senteret i 1998 en kritisk gjennomgang av utkastet til norsk versjon av NCSP med henblikk på terminologisk harmonisering med den internasjonale sykdomsklassifikasjonen ICD-10 (avsluttet HIT-prosjekt), ortografiske valg og teksttruktur. Arbeidet resulterte i en rapport der en lang rekke endringer ble foreslått. Den norsk versjonen av NCSP er nå utgitt i bokform med navnet «Klassifikasjon av kirurgiske inngrep».
I dette prosjektet blir det utviklet en skreddersydd programvareløsning
for terminologidatabasen «UD-basen» ved Utenriksdepartementets
oversettelseskontor. Programvaren er basert på klient-
tjener-modellen med en relasjonsdatabasetjener i bunnen og klientprogramvare for avansert redigering og administrering av termbasen.
Programutviklingen gjøres i koordinasjon med utviklingsarbeidet i prosjektet Meltzer-NOT og er nå i sin avsluttende fase.
Norsk språktests term- og definisjonsliste ble ferdigstilt. I 1998 ble det også påbegynt arbeid med å lage en norsk versjon av «Materials for the Guidance of Test Item Writers», et arbeid som vil bli videreført i 1999.
Wittgenstein's Nachlass, Bergen Electronic Edition (WN-BEE) har som mål å utgi Wittgensteins Nachlaß som transkribert og søkbar tekst og som faksimile. Prosjektet er et samarbeid mellom HIT-senteret, Wittgensteinarkivet ved UiB (WAB) og Oxford University Press (OUP). WN-BEE vil bli publisert i fire «bind» (CD-ROM med transkribert tekst og digitale faksimiler). Første bind ble utgitt i 1998 og inneholder omtrent 4 000 sider. En nettverks- og en Text-only-versjon av dette bindet ble publisert i november. Andre bind ble sendt til Oxford University Press like før årsskiftet.
For en nærmere beskrivelse av prosjektet viser vi til Wittgensteinarkivets egen årsmelding i denne brosjyren.
Førsteutgavene av Hamsuns romantekster blir konvertert til maskinleselig form og legges til rette for automatiserte analyser. I 1998 ble vel halvparten av romanene konvertert.
I løpet av 1998 deltok HIT i omfattende diskusjoner om TEIs fremtid. Som et resultat av denne diskusjonsrunden har HIT-senteret fått tildelt oppgaven som europeisk hovedvert for dette tiltaket i 1999. TEI er det største samarbeidstiltaket innenfor humanistisk databehandling.
ACO*HUM (Advanced Computing in the Humanities) er et tematisk nettverk i SOCRATES-programmet. HIT-senteret har det administrative ansvaret for hele prosjektet og har koordinator-ansvaret for området «Textual Scholarship and Repositories» og IT-ansvar inklusiv vedlikehold av deltakerdatabaser og prosjektets web-sider. ACO*HUM studerer innvirkningen av ny informasjons- og kommunikasjonsteknologi (IKT/ICT) på pensum, vitenskapelig metodologi og innlæringsmetoder ved institusjoner for høyere utdanning. Prosjektet ser også på hvilken relevans ny teknologi har for personer som arbeider med selve innholdssiden innenfor humanistiske fag. Det ble holdt en konferanse i Bergen i september 1998.