Det historisk-filosofiske fakultet ved Universitetet i Bergen opprettet 1997 et forskningsprogram for humanistisk informasjonsteknologi («HIT-programmet»). Programmets målsetting er å styrke dagens forskning på digital informasjonsteknologi innen humanistiske fag.
Universitetet i Bergen har en lang tradisjon når det gjelder satsning på dette fagfeltet. Da HIT-senteret ble åpnet i 1998 var dette en sammenslåing av tre avdelinger med en samlet historie som går helt tilbake til syttitallet. Senteret tilbyr prosjektstøtte av teknisk, administrativ og faglig art til avanserte IT-prosjekter og fungerer som en service-enhet for forskningsprogrammet. Senteret skal også bidra til å utvikle den nasjonale infrastrukturen for bruken av IT innen humanistiske fag og bidra til å opprette kontakt mellom norsk og internasjonal forskning på dette området.
I tillegg til å være en service-enhet for forskningsprogrammet, har HIT-senteret egne forskningsprosjekter. Disse dekker følgende områder:
HIT-senteret er organisert som en seksjon i UNIFOB. Det har helt fram til i dag også hatt et nært samarbeid med Wittgensteinarkivet, som er et forskningsprosjekt ved Filosofisk institutt. Vi ser det som en stor ære å kunne avslutte denne årsmeldingen med sluttrapporten til dette høyt anerkjente prosjektet, som markerte sin avslutning med utgivelsen av Wittgensteins Nachlass. HIT-senteret vil bistå med støtte i oppfølgingen av materialet og gjøre det tilgjengelig for interesserte.
Manfred Thaller
Faglig leder
Programrådet har det overordnede faglige og ressursmessige ansvar for forskningsprogrammet og for HIT-senteret. Rådet hadde følgende medlemmer i 1999:
Personalet i 1999 utgjorde til sammen ca. 21,5 årsverk. De vitenskapelige stillingene bestod av ca. 4,5 årsverk (inkl. faglig leder), fagkonsulentstillingene ca. 12 årsverk, de administrative stillingene ca. 4 årsverk. En edb-teknisk stilling utgjorde 1 årsverk.
|
NFR, grunnbevilgning |
2 320 000 |
|---|---|
|
Universitetet i Bergen |
2 803 793 |
|
Eksterne oppdragsgivere |
4 129 452 |
|
Sum inntekter |
9 253 245 |
|
Budsjettavsetning/overført fra 1998 |
802 676 |
|
Disponible midler |
10 055 921 |

|
Lønnsutgifter |
6 705 552 |
|
Driftsutgifter |
1 377 298 |
|
Teknisk utstyr/progr./service |
579 996 |
|
Sum utgifter |
8 662 846 |
|
Budsjettavsetning/overført til 2000 |
1 393 075 |
|
Disponible midler |
10 055 921 |

«Det er en tid for å høste og en tid for å så» heter det, men ved HIT-senteret har det i år vært tid for begge deler. I 1999 opplevde HIT-senteret at en rekke av prosjektene virkelig gav betydelige resultater samtidig som nye og lovende aktiviteter ble igangsatt.
Den største begivenheten var uten tvil ferdigstillelsen av Wittgensteins Nachlass - uten sammenligning den største tekstkritiske utgaven i digital form til nå, og en markant milepæl innenfor utgivelsesfilologi.
På samme tid har senteret deltatt i utredningsarbeidet for et korpus for det norske språk. Som et resultat av dette har senteret, riktig nok inn i det nye året, begynt å sikre ekstern finansiering for et slikt prosjekt, og i tillegg øremerket betydelige interne ressurser for samme formål.
Fordi 1999 har vært et år med høy aktivitet, har vi i motsetning til tidligere år valgt ut ikke bare tre, men fire prosjekter for detaljert beskrivelse:
Det at man har kunnet rapportere om et slikt produktivt år, gjør at det man ellers måtte ha å tilføye gjerne kunne stått i en fotnote: Faglig leder Manfred Thaller har tatt imot et professorat i informatikk og forlater Bergen i samme stund som denne rapporten framlegges. Hans etterfølger er Claus Huitfeldt, daglig leder for Wittgensteinarkivet og den drivende kraft bak Wittgenstein-utgivelsen.
Detaljert gjennomgang av fire utvalgte prosjekter i 1999
Den første versjonen av ICAME CD-ROM kom ut i 1992 og inneholdt fem forskjellige korpus. Det resterende ICAME-materialet ble distribuert på diskett/bånd. Første- og andreopplaget (på til sammen 300 plater) har vært utsolgt, og den siste tiden har vi selv måttet lage flere kopier for å dekke etterspørselen. Siden platen kom ut, har flere korpusprosjekter blitt ferdige. For å rasjonalisere driften av ICAME ble det bestemt at vi ikke lenger skulle distribuere kopier av enkeltkorpus, men samle alt materiale på én CD-ROM. For å unngå å sende med trykte manualer ble alle de gamle OCR-lest og konvertert til HTML. Manualer til de nyere korpusene har vi stort sett fått elektronisk i tekstbehandlingsformat, og konverteringen til HTML har gått lettere. Manualen til WordCruncher har pga. kopi av skjermbilder blitt laget i faksimile-utgave.
Vi fikk tekstene i forskjellige formater og konverterte dem til et format som kunne brukes til indeksering. Noen av korpusene ble i produksjonstiden gjort tilgjengelig for dem som bestilte platen, for søking via Internett.
Versjon 2 av ICAME CD-ROM inneholder i tillegg til de fem korpusene som var på den første CD-ROMen, 15 nye korpus. De 20 korpusene har til sammen 17 millioner ord, fordelt på 7,9 millioner ord moderne skrevet tekst, 2,5 transkribert tale og 6,6 historisk tekst. 3,5 millioner ord er tagget med ordklasse. De moderne tekstene er fra 1960 -1990-tallet.
CD-platen utgis med en komplett utgave av programmet WordSmith (vi kjøper lisenser fra Oxford University Press). Dette programmet kan brukes på tekstene på platen eller til å behandle egne tekster. WordSmith kan brukes til å lage og sammenligne ordlister, lage konkordans og finne kollokasjoner og nøkkelord til en tekst. WordSmith er ett av de mest brukte programmene innen denne kategorien for personlig bruk.
16 av korpusene er indeksert med DOS-versjonen av WordCruncher. Dette er et program som mange korpusbrukere har vært fortrolig med i mange år. Søkeprogrammet medfølger platen. WordCruncher kan på en enkel måte brukes rett fra CD-platen, eller filene kan kopieres til platelager/nettverk for hurtigere tilgang.
Ett av korpusene, COLT, er også indeksert med TACT. Dette DOS-programmet er inkludert i komplett utgave på CD-platen. TACT gir brukeren noen muligheter som de to andre programmene ikke har (noe mer statistikk).
Alle manualene medfølger i elektronisk utgave på CD-platen og de finnes også tilgjengelig fra CD-platens hjemmeside på Internett. På denne hjemmesiden er det bestillingsseddel, teksteksempler fra de enkelte korpusene, skjermeksempler fra programmene og annen nyttig informasjon. CD-platen leveres i enbruker- og tibrukerutgave.
ICAME CD-platen er tilgjengelig for ikke-kommersiell forskning. De som kjøper platen får også tilgang til noen av korpusene via Internett med et web-basert grensesnitt.
Brown Corpus
*utagget/tagget 1 millon ord *LOB Corpus utagget/tagget 1 million ord
Freiburg-LOB (FLOB) 1 million ord
Freiburg-Brown (FROWN) 1 million ord
*Kolhapur Corpus (India) 1 million ord
Australian Corpus of English (ACE) 1 millon ord
Wellington Corpus (New Zealand) 1 million ord
The International Corpus of English - East African Component 0,9 million skrevne
ord
*London Lund Corpus 0,5 million ord
Lancaster/IBM Spoken English Corpus (SEC) 55 000 ord
Corpus of London Teenage Language (COLT) 0,5 million ord
Wellington Spoken Corpus (New Zealand) 1 million ord
The International Corpus of English - East African component 0,5 million ord
*The Helsinki Corpus of English Texts: Diachronic Part 1,5 million ord
The Helsinki Corpus of Older Scots 830 000 ord
Corpus of Early English Correspondance, sampler 450 000 ord
The Newdigate Newsletters 750 000 ord
Lampeter Corpus 1,1 million ord
Innsbruck Computer-Archive of Machine-Readable English Texts (ICAMET) sampler,
2 million ord
Polytechnic of Wales Corpus
Lancaster Parsed Corpus (LOB)
(*) var med på den første ICAME CD-ROM fra 1992.
Web-referanse: http://www.hit.uib.no/icame/cd/
Utvikling av språkteknologisk programvare ved HIT-senteret har hovedsakelig foregått i det Meltzer-finansierte prosjektet «Norsk terminologisk database. Struktur og applikasjoner» («Meltzer-NOT»). Sentralt i dette prosjektet stod utviklingen av en fleksibel databasearkitektur og et sett av verktøy for terminologiske databaser, spesielt HIT-senterets terminologibase NOT.
I første delen av prosjektet Meltzer-NOT ble databasearkitekturen fastlagt, og det ble utviklet et redigeringsverktøy som skulle være robust og brukervennlig og som skulle kunne tas raskt i bruk for redigering og vedlikehold av NOT-basen. Samtidig er programmet i bruk i ordboksprosjektet NORDLEXIN. Det ble også solgt til Utenriksdepartementet (prosjekt UD-basen).
På grunnlag av erfaringene fra utviklingen og testingen av denne prototypen, ble det satt i gang arbeid med å reimplementere databaseverktøyet. Mens programmeringsspråket for prototypen var Delphi, brukes det CommonLisp for den endelige versjonen. Lisp har en lang tradisjon som programmeringsspråk for datalingvistiske anvendelser.
For prototypen ble Delphi valgt som implementeringsspråk fordi det da ikke fantes noe CommonLisp-utviklingsverktøy for Windows-plattformen som var modent nok med henblikk på grafisk grensesnittprogrammering og databasegrensesnitt. Delphis sterke sider er derimot nettopp grafisk programmering og enkel databasetilgang. Det viste seg imidlertid etter hvert at Delphi er svært begrenset når det gjelder bl.a. strenghåndtering, og at Delphis datastrukturer og objektsystem ikke var fleksible og kraftige nok til de planlagte avanserte og datalingvistiske komponentene av programvaren. I tillegg kom det et nytt utviklingsverktøy for CommonLisp på markedet (Allegro CommonLisp 5.0) som har like kraftige grafiske muligheter som Delphi. En objektorientert databasemodul for CommonLisp (SQL/ODBC) med symbolsk SQL-syntaks og tett integrasjon i CommonLisp-systemet ble dessuten utviklet ved HIT-senteret.
Terminologiverktøyet har en fleksibel og modulær oppbygning. Verktøyet er anlagt som klient-tjener-system med én (eller flere) relasjonsdatabase(r) sentralt, og klientprogrammer på lokale datamaskiner. Kommunikasjonen med databasen skjer via TCP/IP (intranett), med ODBC (Open DataBase Connectivity standard) som databaseprotokoll.
Andre moduler som skal inngå i verktøyet og som er under utvikling, er:
En komponent av terminologihåndteringssystemet er en Internett-tjener som gjør det mulig å publisere terminologiske og leksikalske databaser på Internett. Internett-tjeneren er tett integrert i den øvrige programvaren og baserer seg på CL-HTTP, en gratis vev-tjener som utvikles ved MIT (Massachusetts Institute of Technology).
Ett mål med terminologisystemet er å tilrettelegge for redigering av databasene også via Internett. Det naturlige valget her er å bruke HTTP som dataoverføringsprotokoll (istedenfor ODBC, hvilket forutsetter en stabil oppkobling og som bare er hensiktsmessig innenfor et intranett).
Det viste seg imidlertid at ren HTTP ikke er ekspressiv nok for å implementere redigering på klientsiden i en vanlig nettleser (som f.eks. Netscape), og at det dermed var nødvendig å enten bruke en Java-applett i nettleseren, eller å lage en egen «nettleser» skreddersydd for formålet.
Det var det siste alternativet som ble valgt. Kjernen i Internett-redigeringsprogrammet er den samme programvaren som brukes lokalt, med samme grafiske grensesnitt og utseende. Forskjellen er at den direkte databasekommunikasjonen skjer mellom databasen og en vev-tjener (via SQL/ODBC), og at informasjonen overføres fra tjeneren til redigeringsprogrammet (og tilbake) i form av serialiserte Lisp-objekter via HTTP.
Som et forberedende skritt i konstruksjonen av en termekstraksjonsmodul ble Constraint Grammar-algoritmene implementert i CommonLisp. Constraint Grammar er den grammatikk-modellen som brukes i Oslo-taggeren (en tagger for norsk utviklet ved Tekstlaboratoriet og Dokumentasjonsprosjektet, UiO). Nyimplementeringen vil danne grunnlag for en fullstendig reimplementering av Oslo-taggerens programvare, planlagt gjennomført innenfor prosjektet «Norsk språkbank».
Dessuten ble det utviklet effektiv komprimerings- og indekseringsprogramvare for de leksikalske databasene som brukes i Oslo-taggeren.
Web-referanse: http://apollo.hit.uib.no/not/not-prosjekt.html
Bibliotek, arkiv, museum og andre dokumentasjonssentra over heile Europa har til dels store mengder upubliserte manuskript og brev frå vidgjetne og sentrale personar i europeisk kultur- og samfunnsliv. Slike dokument er vanlegvis berre registrerte (og i beste fall beskrivne) der dei er lagra, og registreringa følgjer ingen vedteken standard. Katalogane over desse samlingane er oftast berre tilgjengelege ved dei aktuelle institusjonane, sjølv om enkelte katalogar er publiserte (på trykk og/eller på Internett).
11 europeiske manuskriptsamlingar, 3 utviklarar og eit par faglege rådgjevarar frå universitets- og biblioteksmiljøa i EU, Sveits og Norge vil gjennom Malvine-prosjektet visa korleis ein kan betra tilgangen til manuskriptsamlingane ved å tilby felles katalogsøk frå eitt Internett-punkt. Ved inngangen til år 2000 er prosjektet i testfasen, der interesserte forskarar, studentar og andre kan slå opp i utvalde katalogar frå alle dei 11 samlingane ved hjelp av eitt felles søk frå nettsida til Malvine.
Ved å utvikla ei felles søkjeside på Internett mot dei til dels svært ulike katalogane, demonstrerer såleis Malvine-prosjektet korleis alle personar med Internett-tilgang lett kan søkja etter moderne manuskript, korrespondanse eller andre dokument - utan at dei treng vita kva for ei samling som har materiale frå dei aktuelle forfattarane.
Prosjektet skal ikkje laga ferdig eit permanent opplegg for søk i komplette manuskriptkatalogar, men vil demonstrera metoden og programvaren i bruk på utvalde delar av katalogane. Håpet er at ein skal få høve til å vidareutvikla dette konseptet til ei permanent løysing, som har kapasitet til å tilby katalogar frå mange fleire samlingar enn dei som er med i Malvine-prosjektet.
HIT-senteret sitt ansvar har vore å undersøkja kva SGML kan brukast til i prosjektet. Me ser her på korleis katalogar over manuskript og brevsamlingar kan kodast i SGML og XML, korleis ein kan laga automatiske konverteringar frå ulike katalogformat til SGML og XML, kva slags presentasjonsmåtar dette opnar for, og korleis katalogar koda i SGML/XML kan brukast som lagringsformat og konverteringsformat.
Me har sett på kva for DTD (Document Type Definition) som finst for koding av denne typen materiale, og har funne at ein DTD utvikla av Society of American Archivists, EAD (Encoded Archival Description) er svært veleigna. Me har utvikla eit program i Perl som konverterer dei ulike katalogformata til EAD, og denne konverteraren er også gjort tilgjengeleg på Verdsveven i form av ein CGI (Common Gateway Interface), sjå http://helmer.hit.uib.no/malvine/EADconverter.html. Vidare har me eksperimentert med XSLT (Extensible Stylesheet Language Transformation) slik at katalogane med EAD-koding kan presenterast på ulike måtar. Til dømes kan ein via XSLT visa ein katalog på eitt av dei lokale katalogformata, slik at ein brukar som kjenner til eit bestemt format, kan sjå på ein katalog som opprinneleg var koda i eit anna format, slik han er van med å sjå denne typen informasjon.
Arbeidet vårt vert integrert i Malvine-prosjektet ved at EAD vert brukt som eit generelt konverteringsformat i dei høva der det ikkje er råd å laga eit direkte søk i ein lokal katalog. Dette er mest aktuelt ved mindre institusjonar der ein ikkje har direkte tilgang via OPAC og Z39.50-protokollen. Desse katalogane vert konverterte jamnleg til EAD-format, og vert så importerte inn i ein generisk database med tilgang via OPAC og Z39.50. Nokre av dei større institusjonane vil vera vert for slike databasar.
Web-referanse: http://www.hit.uib.no/hit/malvine.htm
Ordboksprosjektet NORDLEXIN-N startet opp ved HIT-senteret i 1996. Fra starten og fram til mars 1999 var Kirke-, undervisnings- og forskningsdepartementet (KUF) oppdragsgiver. I mars ble det formelle oppdragsgiveransvaret overdratt til Nasjonalt læremiddelsenter (NLS). Tre leksikografer, en programmerer og en svenskspråklig konsulent har vært engasjert i prosjektet dette året.
NORDLEXIN-N tar direkte utgangspunkt i kildespråksunderlaget for den svenske ordboksserien LEXIN. Denne ordboksserien har eksistert i Sverige i rundt 20 år, og er nå oversatt til rundt 20 språk (blant annet albansk, tigrinsk, gresk og bosnisk). LEXIN-ordbøkene er spesielt utarbeidet for minoritetsspråklige innvandrere og flyktninger. Mange av disse har ingen erfaring fra studium av fremmede språk eller i bruk av ordbøker, og en del har begrensede leseferdigheter også på sitt eget morsmål. Det svenske Skolverket har tilbudt alle nordiske land tilgang til kildespråksunderlaget til LEXIN-ordbøkene for at de på dette grunnlaget skulle kunne utvikle tilsvarende ordbøker i sine respektive land.
Utvalget av oppslagsord er direkte relatert til målgruppens behov når de skal etablere seg i et nytt land med nye og ukjente omgivelser. Det er lagt vekt på å utvikle en pedagogisk og enkel ordbok, der mest mulig informasjon er tatt med i selve ordboksposten. Dette gjelder blant annet forklaringer og definisjoner, språkeksempler, et utvalg fullt utskrevne bøyningsformer og uttalemarkeringer uten spesialtegn. Mange ordboksposter har dessuten henvisninger til et eget vedlegg bakerst i ordboken med 1700 emnesorterte illustrasjoner.
Det er en sentral målsetting at det på grunnlag av påviste ekvivalenser mellom svenske og norske ordboksposter skal være mulig å generere norsk-utenlandske ordbøker til samtlige språk som den svenske ordbasen har blitt oversatt til og som er aktuelle i Norge. NORDLEXIN-N er supplert med nye norske poster for at det norske lemmautvalget skal være representativt. Ved årsslutt inneholdt den norske basen rundt 25000 ord. Oversettelsesarbeidet starter i år 2000 og vil foregå ved HIT-senteret.
Web-referanse: http://www.hit.uib.no/hit/lexin.htm
HIT-senteret har deltatt i et forprosjekt, «Nasjonalt korpus for språkteknologi». Prosjektet arrangerte to diskusjonsseminarer og laget en utredning om et nasjonalt korpus (tale-, tekst- og leksikalske data). I rapporten foreslås det etablert et korpus som skal være en felles ressurs for språkteknologisk forskning og utvikling. Rapporten framlegger en liste over eksisterende språkdata for norsk og fremmer en prioritert liste over suppleringer til de esisterende språkdata. Rapporten diskuterer også forvaltning, organisering og finansiering av et nasjonalkorpus.
Arbeidet med å samle inn avismateriale fortsatte i 1999. Som tidligere har vi mottatt en komplett avis per uke fra Bergens Tidende. Materialet består nå av ca. 10 millioner ord, og disse er søkbare via et web-basert grensesnitt. Innsamling av avismateriale fra web-utgavene av de største riks- og regionavisene fortsatte også i 1999. Materialet bestod ved årsskiftet av en søkbar base på ca. 60 millioner ord. Innsamling og indeksering av materialet skjer helautomatisk. Systemet ble presentert på Lingvistisk forum ved UiO i september 1999.
Web-referanse: http://www.tele.ntnu.no/users/svendsen/korpus/
Gjert Kristoffersen fikk penger fra Meltzer-fondet for å gjennomføre en pilotstudie av et norsk talemålskorpus. Studien skulle utvikle og teste metoder som gjør det mulig å bygge opp et digitalisert, søkbart talemålskorpus. Tekstene ble transkribert og lydfilene digitalisert ved Nordisk institutt, UiB. HIT-senteret har indeksert materialet med Corpus WorkBench og koblet tekst til lydfiler med systemet som ble utviklet i COLT-prosjektet. For å gi en tidskode til hvert ord, ble det satt et merke i teksten for hvert tiende sekund med lyd. For ordene mellom to slike markeringer ble det gjort en interpolering.
Web-referanse: http://studier.uib.no/tein/prosjekt.nsf/d05949b286ef44b2c12566940068f1f4/d7607737629e0faec1256712006c28d6?OpenDocument
Tekstene i dette korpuset eksisterer i forskjellige formater. Informasjonen fra den utaggede og den taggede versjonen er blitt samkjørt. I denne prosessen er det ryddet opp i en del kodefeil. De endelige versjonene er konvertert og indeksert med programmet TACT for søking via web. Også versjonen med prosodiske markeringer (ca. 1/8 av tekstene) er indeksert, og alle tre versjonene er på den nye ICAME CD-ROM.
Lydfilene til alle COLT-tekstene finnes i digital form (WAV-format). Lydfilene og tekstene ble sendt til firmaet SoftSound i England. Hvert ord i teksten ble tilordnet en tidskode (starttid og varighet) basert på teknikker for talegjenkjenning. Ved HIT-senteret er det laget et program for utplukking av en vilkårlig bit av en lydfil for avspilling via web. Tekstene med tidskodene er indeksert med programmet Corpus WorkBench fra IMS i Stuttgart. Via et web-basert grensesnitt er det mulig å lage en konkordans der det for hver linje er generert oppkall til den web-baserte avspilleren for lyd, slik at en kan få avspilt den tilhørende lydsekvensen for hver konkordanslinje.
Web-referanser: http://helmer.hit.uib.no/colt/, http://helmer.hit.uib.no/test-of-sound.html
Prosjektet er et samarbeid mellom flere institusjoner i Norden. HIT-senteret har dataregistrert resultatene av en undersøkelse av slang. De norske tekstene transkriberes i Kristiansand. Til dette brukes programmet SyncWriter (på Macintosh). HIT-senteret har gjort forsøk med hvordan tekster og tidsinformasjon kan hentes ut av dette programmet.
Web-referanse: http://www.uib.no/uno/
HIT-senteret deltar i dette nasjonale prosjektet som har sin hovedfinansiering fra NFR. Prosjektets mål er å tilrettelegge en ny vitenskapelig og tekstkritisk utgave av Henrik Ibsens samlede arbeider. Utgaven vil bli publisert både i bokform og i elektronisk utgave. Den elektroniske utgaven vil bygge på et elektronisk arkiv som man regner med vil bli vedlikeholdt også etter dette prosjektets levetid. Prosjektet startet våren 1997 og er planlagt ferdigstilt i 2008. I 2000 vil den første Ibsen-teksten bli publisert som en pilotutgave - et manuskript til Ibsens Catilina.
HIT-senteret deltar i prosjektredaksjonen, og har spesielt ansvar for alt overordnet IT-relatert arbeid samt tekstkoding. Senteret har også ansvar for tilpasning av programmer for redigering og formidling i tillegg til løpende IT-assistanse.
Web-referanse: http://ibsentexts.hit.uib.no/nor-1.htm
I dette prosjektet vedlikeheld og vidareutviklar me databaseprogram for dataføring av kulturhistorisk kjeldemateriale som foto, gjenstandar, boksamlingar, kunstindustrigjenstandar m.m. Det vert utført i fagleg samarbeid med IT-utvalet i Norsk museumsutvikling (NMU).
Me har kring 230 installasjonar av databasen winRegimus: Dei fleste ved kulturhistoriske museum, ein del i kommunale fotosamlingar pluss nokre i andre sektorar som til dømes hjå konsulentar, vegkontor, sjukehus og andre verksemder som har historiske samlingar.
Det er halde åtte kurs i bruk av winRegimus ulike stader i landet.
Finansiering: Noregs forskingsråd finansierer prosjektet med om lag ett årsverk. Brukarane betalar ved kjøp av Regimus og for kurs.
Web-referanse: http://www.hit.uib.no/musved/winregim.html
HIT-senteret er den ene av to europeiske vertsinstitusjoner for TEI (Text Encoding Initiative) Consortium. I tillegg til arbeid med den nye organisasjonstrukturen, har HIT-senteret stått ansvarlig for produksjonen av en CD-ROM med oppdaterte versjoner av TEIs DTDer. CDen ble trykt i 500 eksemplarer og ca. 400 er distribuert til interesserte enkeltpersoner og institusjoner internasjonalt.
Web-referanse: http://www.tei-c.org/
Det tematiske nettverksprosjektet om «Advanced Computing in the Humanities» (ACO*HUM), som fikk støtte innenfor SOCRATES/ERASMUS-programmet, avsluttet sitt tredje år og begynte på sitt fjerde i 1999. HIT-senteret hadde koordinerings- og administrasjonsansvar for hele prosjektet, som hadde mer enn 100 partnere. Senteret hadde også koordineringsansvar for området «Textual Scholarship and Humanities Computing» og IT-ansvar, inklusiv vedlikehold av deltakerdatabaser og prosjektets web-sider.
ACO*HUM studerte innvirkningen av ny informasjons- og kommunikasjonsteknologi på humanistiske fag, spesielt når det gjelder studie-programmer, vitenskapelig metodologi og innlæringsmetoder ved institusjoner for høyere utdanning. På bakgrunn av dette arbeidet ble boken Computing in Humanities Education - A European Perspective utgitt. Den er blitt til et omfattende analytisk og strategisk dokument om framtiden til humanistiske fag. Fra november 1999 gikk prosjektet inn i en formidlingsfase.
Web-referanse: http://www.hit.uib.no/AcoHum/
HIT-senteret har vært representert i styret for ALLC (Association for Literary and Linguistic Computing) siden 1996. ALLC er den ene av de to organiserende institusjonene bak de årlige ALLC/ACH-konferansene og utgir tidsskriftet LLC-Journal. ALLC er også aktivt med i ACO*HUM-arbeidet.
Web-referanse: http://www.allc.org/
Redaksjonsarbeidet med den terminologiske databasen NOT heldt fram i 1999. Som tidlegare vart hovudvekta lagd på kvalitative aspekt som korrekturlesing, vurdering av synonym og innlegging av definisjonar. Like eins vart det arbeidd vidare med etablering av faglege rutinar for redaksjonsarbeidet. Som eit ledd i samarbeidet med Nordterm-Net vart ca. 1000 NOT-postar frå fagområdet BORING lagde inn i Nordtermbanken, og dette har ført til at NOT no er meir kjend enn tidlegare mellom aktuelle brukarar. Det vidare redaksjonsarbeidet i 2000 vil ta sikte på ei selektiv kvalitetsheving av materialet. Det er gjort ein intensjonsavtale med innlegging av meir materiale i det nordiske samarbeidet omkring Nordtermbanken. Nordtermbanken er for tida under etablering i Oslo. Ansvarleg fagorgan er det nordiske samarbeidsorganet Nordterm.
Web-referanse: http://apollo.hit.uib.no/not/not-prosjekt.html
Samarbeidet med Norsk språktest i forbindelse med terminologi og testmateriale fortsatte i 1999. Det ble utarbeidet en oppdatert norsk versjon av dokumentet «Can-Do Statements».
HIT-senteret har registrert ein god del interesse frå forskarar for å få tilgang til elektroniske versjonar av Knut Hamsuns litterære tekstar. Me har difor sett i gang arbeid med å lesa inn desse tekstane og laga elektroniske versjonar av Gyldendals førsteutgåver. Tekstane skal brukast til språkleg og litterær analyse i forskings- og utviklingsarbeid.
Prosjektet ble offisielt avsluttet ved utgangen av februar 1999. Etter at det var vel i havn, ble sluttrapporten, sammen med publikasjoner, presseomtale og andre resultater, lagt ut på prosjektets nettsted, http://fasting.hf.uib.no/scarrie.
Prosjektresultatene ble viet stor oppmerksomhet i norske aviser og tidsskrifter. Utvalgte resultater ble presentert i vitenskapelige fora, nasjonale så vel som internasjonale.
Web-referanse: http://fasting.hf.uib.no/~desmedt/scarrie/
Det EU-finansierte prosjektet «European Cultural Heritage Technician», der HIT-senteret samarbeider med yrkesutdanningsinstitusjonen Consorzio Provinciale per Formazione Professionale di Ravenna, London Guildhall University og Central European University, Budapest, er nå i gang. Prosjektet tar sikte på å utarbeide et undervisningsopplegg og pensum som kombinerer multimedia-ferdigheter med et visst innslag av kulturarvskunnskap. Denne utdannelsen skal kvalifisere for en karriere innenfor kulturarvsarbeid, dog på et lavere nivå enn det vanlige akademiske kurs legger opp til. HIT-senteret har bidratt til dette prosjektet med undervisningsmateriale og programvaremoduler for demonstrasjon av teknikker brukt i forbindelse med bildehåndtering.
Euroliterature startet opp i september 1997 som et oppfølgingsprosjekt til tidligere og eksisterende EU-støttede prosjekter. Prosjektet er et samarbeid mellom fem partnere hvorav HIT-senteret er koordinator. Dessuten deltar 20 andre universiteter i prosjektet. Erfaringene fra tidligere europeiske prosjekter for åpen fjernundervisning (ODL, «Open Distance Learning») blir nå brukt i en ny tilnærming for å få ODL-konseptet inn i tradisjonelle akademiske miljøer og tatt i bruk der. Målet er at virtuell mobilitet skal bli en del av hverdagen til studenter, veiledere og lærere ved litteraturvitenskapelige institutter, og å utvikle varige kontakter mellom ulike institusjoner med henblikk på utvikling av undervisningsplaner/pensum, validering av utdanning på tvers av institusjoner og landegrenser, og utveksling av undervisningsressurser. For å kunne møte eventuell motstand mot nettbasert utdanning i den akademiske kulturen, kombinerer dette prosjektet flere tilnærmingsmåter:
Web-referanse: http://www.euroliterature.uib.no/
Innenfor programvareutvikling er det gjennomført to samarbeidsprosjekter som begge kan være første skritt i framtidige og mer langsiktige prosjekter.
I et konsortium med Queen Mary and Westfield College, London, Universitetet i Graz og Institut für Realienkunde ved det østerrikske vitenskapsakademi, har det vært gjennomført et pilotprosjekt som har gitt en CGI-basert web-tjenerversjon av kleio-programvaren. Denne kombinerer den ikke-relasjonelle datamodellen for denne programvaren med mulighetene til å behandle XML/SGML-kodede data som direkte database-inndata. Som et resultat av dette pilotprosjektet har HIT-senteret framskaffet programvare for ett av de største digitale bibliotekene i Europa.
Det andre samarbeidsprosjektet er med Institut für maschinelle Sprachverarbeitung ved Universitetet i Stuttgart. Her har HIT-senteret hatt ansvaret for å implementere et Java-basert sett av klienter som kommuniserer via en sokkelbasert protokoll med et flerbruks korpusorientert databasesystem. Denne kommunikasjonsprotokollen ble laget spesielt for dette samarbeidsprosjektet.
Web-referanse: http://www.mpier.uni-frankfurt.de/dlib/
Arbeidet med en plattform for omfattende digitale ressurser har tatt to nye retninger: Det er laget et komplett oppsett for digitalisering av lyd som gir høy lydkvalitet, og programvaremoduler for bruken av de ulike maskinvaremodulene er framskaffet. De fleste aktivitetene er derfor beskrevet i forbindelse med ECHT-prosjektet og programvareutvikling. I tillegg til de aktivitetene som er nevnt der, er det laget to sett med hjelpeprogrammer:
Web-referanse: http://linux2.hit.uib.no/vol/emsi/emsi.html
5. mars: What is a dialect area? John Nerbonne, Alfa-informatica, Rijksuniversiteit Groningen.
19. mars: WordSmith - et Windows-program for å lage konkordans og ordlister. Knut Hofland, HIT-senteret.
25. mars: Computational Linguistics - a View from Gothenburg. Katharina Mühlenbock et al., Universitetet i Göteborg.
26. mars: Cognitive constraints on syntax. Gerard Kempen, Rijksuniversiteit Leiden.
30. april: Den første «mini-konferansen» over tema Humanistisk IT. Innlegg og diskusjon. Espen Aarseth, førsteamanuensis, Seksjon for humanistisk informatikk. Koenraad de Smedt, professor, Seksjon for lingvistiske fag. Claus Huitfeldt, førsteamanuensis, Wittgensteinarkivet. Daniel Apollon, førsteamanuensis, HIT-senteret.
4. juni: Den andre «mini-konferansen» over tema Humanistisk IT. Innlegg og diskusjon. Jan Oldervoll, førsteamanuensis, Historisk institutt. Roald Skarsten, professor, Seksjon for humanistisk informatikk. Helge Dyvik, professor, Seksjon for lingvistiske fag. Manfred Thaller, professor, HIT-senteret.
19. november: Begynnerkurs i HTML. Vemund Olstad, HIT-senteret.
26. november: Innføring i XML. Vemund Olstad, HIT-senteret.
3. desember: XSL:XML med stil. Eksempler fra Ibsen-prosjektet og Malvine. Tone Merete Bruvik, HIT-senteret.
7. desember: Statistikk og metodeseminar. Daniel Apollon i samarbeid med Humanistisk informatikk.
10. desember: Unicode - det universelle tegnsett? Espen S. Ore, HIT-senteret.
Februar: European course on the mobility of Literature in the Electronic Age. Daniel Apollon, HIT- senteret. Web - referanse: http://www.euroliterature.uib.no/Courses98/index4.htm
Våren 1999: Statistikk og metode, delfagstillegg, Seksjon for humanistisk informatikk. Foreleser: Daniel Apollon, HIT-senteret.
Apollon, Daniel: Kulturelle og samfunnsmessige forutsetninger for interaktivitet, ITU, Oslo.
Apollon, D. & J. Lambert: The Dissemination of Euroliterature, Rapport fra år II, Euroliterature Report Series, Bergen-Leuven.
Bruvik, Tone Merete: «The impact of SGML in the MALVINE project», i: Leituras: Revista da Biblioteca Nacional, nr. 5, Outono, 1999.
Hofland, Knut: ICAME CD-ROM, Second Edition 1999, ISBN 82-7283-091-4.
Ore, Espen S.: «Don't worry» eller «Mama, can this really be the end»?, i: HUMAN IT 1, 1999, Borås, s. 215-225.
Ore, Espen S., Harold Short et al.: «European studies on textual scholarship and humanities computing», i: Computing in Humanities Education - A European Perspective, ACO*HUM, HIT-Senteret, Universitetet i Bergen, 1999, s. 63-88.
Ore, Espen S.: «Elektronisk publisering: forskjellige utgaveformer og forholdet til grunntekst(er) og endelig(e) tekst(er)», i: Vid texternas vägskäl - Textkritiska uppsatser Nordisk Nätverk för Editionsfilologer. Skrifter Vol. 1, Svenska Vitterhetssamfundet, Stockholm, 1999, s. 138-144.
Flanders, Julia, László Hunyadi, Espen S. Ore (eds. and introduction): The ALLC-ACH'98 Conference Issue of Literary and Linguistic Computing, Vol. 14, no. 1, Oxford, 1999.
Rangnes, Odd Kjetil: Oljeterminologi og språkholdninger: bruk av spørreskjema i lys av «dobbel hermeneutikk». Vitenskapsteoretisk innlegg til dr.art.-graden, Universitet i Bergen. I: Laurén, C. og J. Myking (red): Treng små språksamfunn fagspråk? Nordiske fagspråkstudiar. Bergen 1999: Nordica Bergensia nr. 20, 1999, Nordisk institutt, Universitetet i Bergen, s. 207-227.
Smedt, Koenraad de & Victoria Rosén: «Datamaskinell skrivestøtte», i: Språk i Norden 1999: årsskrift for Nordisk språkråd og språknemdene i Norden. Oslo: Novus, 1999, s. 20-32.
Smedt, Koenraad de: «European studies on computational linguistics», i: Computing in humanities education: A European perspective. UiB: 1999, s. 63- 88.
Svendsen, Torbjørn, Hofland, Knut et al.: Nasjonalt korpus for språkteknologi - forprosjekt, NTNU, Trondheim: 1999.
Sæbøe, Randi: «Funksjon som forklaring - eksemplet norsk petroleumsterminologi», i: Nordica Bergensia, nr. 20 1999. Nordisk institutt, Universitetet i Bergen.
Thaller, Manfred & H.-H. Ebeling: Digitale Archive. Die Erschliessung und Digitalisierung des Stadtarchivs Duderstadt, Göttingen, 1999.
Thaller, Manfred: «Digitale Archive:Technik und Methode», s. 125-162 i: M. Thaller & H.-H. Ebeling (eds): Digitale Archive. Die Erschliessung und Digitalisierung des Stadtarchivs Duderstadt, Göttingen, 1999.
Domingo Sánchez-Mésa Martínez, José Lambert & Annemie Boonen, Report on the Euroliterature Open and Distance Courses «The Mobility of Literature», Euroliterature Report Series, Bergen-Granada-Leuven, 1999.
Eisner, Maya: Addressing the Impact of Distance Teaching Applications in Traditional Universities with Specific Reference to «good practice» experiences collected from a Web-questionnaire, Euroliterature Report Series, Bergen-Milano.
Ellingsve, Eli Johanne: IGU-Prosjektet 1990-1997. Rapport nr. 1. ISBN 82-283-090-6. ISSN 1500-449X.
Ladehaug, Tollef: Conditions for Making it Worth While for Learners, Euroliterature Report Series, The use of ODL in universities on campus, Bergen.
Peyawary, Ahmad S.: The Core Vocabulary of International English: A corpus Approach, HIT-senterets publikasjonsserie Nr. 2/99. ISBN 82-7283-095--7.
Smedt, Koenraad de, Hazel Gardiner, Espen Ore, Tito Orlandi, Harold Short, Jacques Souillot, William Vaughan (eds.): Computing in Humanities Education: A European Perspective. UiB: 1999. ISBN 82-7283-096-5.
Apollon, Daniel: New Technologies and University Strategies, CRE, Geneva, Paris. In site evaluation of ICT and University Strategies, Université de Bordeaux II and Université Paris Compiègne.
Hofland, Knut: Medlem ICAME advisory board.
Meurer, Paul: Styremedlem i SGML/XML-brukergruppen Norge.
Myking, Johan: Leiar i Nordterm arbeidsgruppe 1 (AG1), Terminologisk forsking og utdanning, 1999-2001.
Myking, Johan: Styremedlem i Rådet for teknisk terminologi.
Ore, Espen S.: Medlem i ALLC Executive Committee.
Ore, Espen S.: Coordinator Work Group on Textual Scholarship and Humanities Computing, ACO*HUM.
Thaller, Manfred: Medlem av HF-fakultetets strategigruppe for språkteknologisk satsing.
Sæbøe, Randi: Medlem av administrasjonsgruppen, UNIFOB-gjennomgang.