Forskergruppe for språkteknologi

Henrik Ibsens skrifter



Koding av tekster i XML

Alle grunnlagstekstene blir kodet i XML (Extensible Markup Language). Grunntekstene er hovedsaklig bokutgaver fra Ibsens levetid, men også enkelte manuskripter og tidligere elektroniske utgaver inngår i tekstgrunnlaget. Det er utarbeidet en egen kodepraksis og en DTD (Document Type Definition) for materialet. Disse er basert på TEI (Text Encoding Inititative) Guidelines. Alle tekstene i HIS skal følge denne DTD, dvs. være valid i forhold til den. Dette sikrer at tekstene er enhetlig kodet.

Sancthansnatten, prolog og 1.akt er et eksempel på hvordan et skuespill av Henrik Ibsen er kodet i XML.

Transformering av XML

Grunntekstene som foreligger som XML-dokumenter kan bearbeides videre, både manuelt og maskinelt. Manuell bearbeiding inkluderer f.eks. utarbeiding av en ny hovedutgave av et verk, der tekst fra flere grunntekster kan inngå. Maskinell bearbeiding vil være å produsere ulike visninger av teksten for ulike formål eller media, f.eks. i HTML eller PDF for henholdsvis internettvisning og trykk. For å gjøre dette brukes XSL (Extensible Stylesheet Language) stilark som knyttes til en Konverteringsmodul der brukeren (som i denne fasen av prosjektet er medarbeiderne i prosjektet) selv kan velge hvilket stilark som skal brukes på en angitt tekst. Brukeren kan da selv på en fleksibel måte lage utgaver av teksten til ulike formål som korrekturlesning, til kommentering av redaksjonen, man kan velge om alle kommentarer skal taes med, om metriske opplysninger skal vises osv.

Et eksempel på enkel HTML visning av den xml kodede Sancthansnatten, prolog og 1.akt.

Det samme xml-dokumentet kan vises med full metrikkinformasjon, variasjon og med komplett informasjon om teksten, slik som i denne HTML visning.

DTD for Henrik Ibsen tekster

DTD for HIS er laget som er modifikasjon av TEI vha. TEI Pizza Chef med følgende to ekstensjonsfiler: ibsen.extension-17.ent og ibsen.extension-17.dtd. Følgende valg er satt i TEI Pizza Chef:
  1. Mixed base tagset: Prose, Drama and Verse
  2. Toppings: linking, figures, transcr, textcrit, names.dates, corpus
  3. Entity set: ISO Latin 1 (Western European languages), ISO Numeric and Special Graphic Characters (fractions, some superscript numerals, arithmetic operators, arrows, quotation marks) og ISO Diacritics (acute, breve, caron, cedil, circ, tilde, uml, etc.)
  4. Modification files selected: ibsen.extensions.ent and ibsen.extensions.dtd
  5. Generate full DTD.


Søking i XML

En generell nettresurs for søking i en XML-fil ved hjelp av SGREP er tilgjengelig ved Aksis. Man må angi hvilken fil man vil søke i, filen kan være en hvilken som helst XML-fil som man har tilgang til. Søket kan være enkelt eller man kan bruke SGREP syntaks (se Sgrep manual). Tjenesten brukes av medarbeiderne på HIS, men kan naturligvis brukes av hvem som helst som vil søke strukturelt i en XML-fil.

Konverteringsskript

Det finnes en del skript som er laget for prosjektet for å konvertere filer mellom ulike formater. De fleste av disse er skrevet i PERL. Alle skal ha en detaljert beskrivelse av hva det gjør, og hvordan det skal brukes i en kommentar begynnelsen av selve skriptet.

Se egen side om konvertering

Tidligere Ibsen-prosjekt

Ibsen-prosjektet ble drevet ved NAVFs edb-senter for humanistisk forskning, i hovedsak fra 1977-1987. Det finnes bl.a. ordlister tilgjegelig og konkordans over Henrik Ibsens dramaer og dikt. Hver oppmerksom på at tekstene som ligger til grunn for dette prosjektet ikke er de samme som utarbeides i prosjektet Henrik Ibsen skrifter.

Kontaktpersoner

  1. Tone Merete Bruvik
  2. Vemund Olstad
  3. Daniel Apollon


Lenker

  1. English version of this page.
  2. Hjemmesidene til prosjektet Henrik Ibsens skrifter.
  3. Tilpassert TEI DTD for HIS.
  4. Konverteringsmodul for XML-dokumenter vha. XSLT-stilark.
  5. Hjemmesidene til TEI.
  6. W3C (World Wide Web Consortiums) sider om XML.
  7. W3C (World Wide Web Consortiums) sider om XSLT.


Sist oppdatert: 8. januar 2009 av Tone Merete Bruvik