TCA2: Et brukervennlig program for sammenstilling av setninger fra en originaltekst og dens oversettelse(r).
Målsettingen med prosjektet er å lage en ny versjon av et program for sammenstilling av setninger fra en originaltekst og dens oversettinger (alignment). Programmet skal inneholde en integrert modul for interaktiv kontroll av resultatet. Programmet kan brukes til å bygge opp søkbare samlinger av parallelle tekster.
I prosjektet Engelsk-norsk parallellkorpus som var et samarbeid mellom HIT-senteret og Institutt for britiske og amerikanske studier (IBA) ved UiO (se [ENPC]) ble det i 1993/94 laget et program for sammenstilling av setninger som fikk navnet Translation Corpus Aligner (TCA), dette er beskrevet i [Hofland & Johansson]. Programmet ble brukt til å behandle tekster i ENPC (2.6 millioner ord) og ble også brukt til andre språkpar som engelsk-nederlandsk, engelsk-portugisisk og engelsk-tysk i en utvidelse av ENPC. Samarbeidspartnere til ENPC-prosjektet i Sverige og Finland brukte også programmet. I tillegg har forskere i Danmark, Estland ,Tyskland, England, Spania og Belgia fått adgang til programmet. Programmet brukes i dag ved prosjektet "Språk i kontrast", se [SPRIK] ved UiO og Fransk-norsk parallellkorpus (FNPC) ved UiB. Det har også vært en god del interesse for programmet fra utlandet, men et litt tungvindt brukergrensesnitt har gjort at programmet kun har blitt distribuert til en liten krets forskere. Eksempel på søk i tekstmateriale som er kjørt gjennom alignmentprogrammet kan gjøres med Translation Corpus Explorer (skrevet av Jarle Ebeling) fra Web-adressen:
Erfaringene fra bruken av programmet, utviklingen innen fagfeltet og pågangen av potensielle brukere har gjort det ønskelig å lage en helt ny og forbedret utgave av programmet.
I programplanen for KUNSTI er et av de to prioriterte forskningstema "maskinoversetting og flerspråklig tekstbehandling" med relevante forskningsemner som "statistiske metoder for maskinoversettelse" og "kontrastive språkstudier". For at en skal få gjort kvantitative studier er det viktig å få bygget opp et stort parallelt korpus med tekster fra ulike emneområder (og språkpar). Et forbedret alignmentprogram er et viktig verktøy i denne prosessen. Det eksisterende ENPC/OMC er for lite (særlig til statistiske formål) og tekstgrunnlaget trengs økes (forhåpentlig med snarlig støtte innen Norsk Språkbank). ENPC har vært et svært vellykket prosjekt og har vært viktig for utviklingen av det aktive miljøet innen kontrastive studier ved Universitetet i Oslo.
Det original programmet bruker en liten to-språklig ordliste (ankerliste) som hovedredskap for sammenstillingen. I tillegg gjør programmet bruk av lengde på setningene i de to tekstene og forekomster av egennavn, tall og spesielle tegn eller markup (som inndeling av teksten, overskrifter, markering av kursiv og lignende). Ut i fra disse opplysningen vurdere programmet om en setning i den ene teksten skal kobles sammen med en setning i den andre teksten (noe som er det absolutt vanligste), om en setning i den ene teksten ikke finnes i den andre teksten eller om flere setninger i den ene teksten er representert med en setning i den andre teksten. Det nye programmet vil gjøre bruk av de samme teknikkene. I tillegg vil en se på nyere metoder og prosjekter for sammenstilling av tekst og vurdere om det er elementer fra disse som kan tilføyes det nye programmet. Det gjelder særlig arbeid som er beskrevet i [Fung & Church], [Fung & McKeown], [Simard & Plamondon], [Piao & McEnery] og [PLUG]. En fyldig bibliografi innen feltet finnes i [Véronis]. Ankerlisten vil bli utvidet med resultatene fra NFR-prosjektet "Fra parallellkorpus til ordnett" (som har brukt og som var helt avhengig av data fra ENPC) og en større engelsk-norsk maskinleselig ordbok (om prosjektet får adgang til en slik). Tilgjengeligheten av en norsk tagger (Oslo-Bergen taggeren) sammen med taggere for andre språk gjør at også lemma og ordklasseopplysning kan bli brukt i arbeidet med alignment.
Det gamle programmet er et DOS-program skrevet i Turbo Pascal og er begrenset av hukommelsesgrensen på 640 KB som gjelder for DOS (noe som begrenser størrelsen på ankerlisten). Tekstene må være i DOS-tegnsett. Det nye programmet vil bli skrevet i et programmeringsspråk som gjør det flyttbart til andre maskinarkitekturer (Mac og Unix/Linux). Det vil ikke være noen begrensning i hukommelsesbruk og tekstene vil bli behandlet i UNICODE tegnsett, slik at det også kan brukes på språk som går ut over 8-bit tegnsett.
Det nåværende programmet kan behandle tekster kodet etter anbefalingene i Text Encoding Initiative (TEI). Som et resultat av kjøringen av programmet blir hver setning markert som et SGML-element med en <s>-tagg som har en entydig identifikator. Informasjon om alignment blir gitt i en attributt (corresp) med identifikatoren(e) til tilhørende setning(er) i oversettelsen(e). TEI gir alternative måter å angi alignmentinformasjon på og det nye programmet vil også gi mulighet til bruk av en ekstern notasjon (utenfor tekstene) ved hjelp av linkGrp- og link-elementer. TEI-anbefalingene for parallelle tekster er beskrevet i [TEI] og [CES]. Det nye programmet vil også gi støtte til XML-kodete dokumenter.
I det gamle programmet kan elementer i ankerlisten være trunkert til høyre og de kan bestå av fraser inntil tre ord. I den forbedrete utgaven vil det også bli mulig å trunkere ord til venstre slik at *blomst* vil dekke både blomsterpotte og markblomst.
Det nye programmet vil ha en forbedret behandling av overskrifter. Det vil prøve å finne sjekkpunkter i teksten hvor en kan være sikker på korrespondanse. Programmet vil også bli koblet med programmet for ordalignment som blir laget i ordnett-prosjektet slik at begge programmene kan nytte resultatene fra hverandre. Programmet vil bli laget slik at det kan brukes på nye språkpar uten ankerliste, slik at denne listen kan bygges opp inkrementelt.
Det vil bli laget en versjon av programmet som kan brukes via Web.
Den viktigste egenskapen ved det nye programmet vil bli mulighet for interaktiv kontroll av resultatet. Programmet i dag er et satsvis program uten interaksjon med bruker. Bruker må sjekke alignment i de ferdige resultatfilene. Dersom programmet har sporet av ved alignment (all alignment etter et bestemt punkt er feil) må bruker tilføye ordpar i ankerlisten eller sette inn manuelle skip-attributter i setninger som programmet skal hoppe over. Deretter må programmet kjøres på nytt. Selv om programmet kommer gjennom hele teksten vil det være en del feil (2-5 prosent). Disse feil må rettes opp (om det er ønskelig) ved å redigere referansene i corresp-attributtene.
I den nye utgaven av programmet vil brukeren kunne angi at programmet skal stoppe hver gang det vil foreta en alignment som ikke er en-til-en. Brukeren vil bli presentert setningene i to spalter på skjermen og vil kunne godkjenne sammenkoblingen og evt. forandre denne ved å utvide eller innskrenke valget av setninger ved enkle pek- og klikkoperasjoner. Med det nye programmet vil tiden det vil ta for å få et korrekt resultat bli mye mindre enn ved det gamle, særlig ved tekster der det er utelatt (eller tilføyd) flere setninger og der det er mange setninger (mer enn 2) som er representert som en setning i det andre språket.
Programmet vil bli prøvd ut på forskjellige typer tekster, bl.a. tekster som ble brukt i evalueringsprosjektet for parallelle korpus, ARCADE, se [ARCADE] og tekster fra ENPC (der vi allerede har det korrekte resultatet som vi kan sjekke mot) og tekster som legges inn i Oslo Multilingual Corpus. Programmet vil også bli testet på mer fagspesifikke fagområder som EU-dokumenter på forskjellige språk, spesielt der det finnes oversettelser til norsk. Et annet testmateriale kan være tidskriftartikler fra for eksempel utenlandske datablad som blir oversatt til norsk.
[ARCADE] ARCADE Evaluation of parallel text alignment systems
http://www.lpl.univ-aix.fr/projects/arcade/index-en.html[CES] Corpus Encoding Standard: 5.3. Encoding conventions for parallel text alignment
http://www.cs.vassar.edu/CES/CES1-5.html#ToCalign[ENPC] English-Norwegian Parallell Corpus: hjemmeside
http://www.hf.uio.no/iba/prosjekt/[Fung & Church] Fung P., & Church K.-W. (1994). K-vec : a new approach for aligning parallel texts. Proceedings of COLING'94, Kyoto. 1096-1102. Tilgjengelig fra:
http://xxx.lanl.gov/abs/cmp-lg/9407021[Fung & McKeown] Fung, P., & McKeown K. (1994). Aligning noisy parallel corpora across language groups: word pair feature matching by dynamic time warping.proceedings of AMTA 94, Columbia, Maryland: Oct. 1994, 81-88. Tilgjengelig fra:
http://xxx.lanl.gov/abs/cmp-lg/9409011[Hofland & Johansson] Hofland, Knut and Stig Johansson. 1998. "The Translation Corpus Aligner: A program for automatic alignment of parallel texts." In S. Johansson and S. Oksefjell Corpora and Crosslinguistic Research: Theory, Method, and Case Studies. Amsterdam: Rodopi. , 87-100. Tilgjengelig fra:
http://khnt.hd.uib.no/files/align.htm[Piao & McEnery] Piao, Scott Songlin and Tony McEnery (2001), 'A sentence alignment algorithm based on a bivariate population model' (to be published). Tilgjengelig fra:
http://www.dcs.shef.ac.uk/~piao/Research/Papers/sent_align2.pdf[PLUG] PLUG - Parallel Corpora in Linköping, Uppsala, and Göteborg
http://stp.ling.uu.se/~corpora/plug/[Simard & Plamondon] Simard, M., & Plamondon, P. (1996). Bilingual sentence alignment: balancing robustness and accuracy. Proceedings of the Second AMTA, Montréal, Québec,
135-144. Tilgjengelig fra:
http://www.iro.umontreal.ca/~simardm/SimPla/[SPRIK] Språk i kontrast: hjemmeside
http://www.hf.uio.no/german/sprik/index.shtml[TEI] TEI Guidelines P3: 14.4 Correspondence and Alignment
http://etext.lib.virginia.edu/bin/tei-tocs-p3?div=DIV2&id=SACS[Véronis] Jean Véronis: Parallel text processing: Bibliography
http://www.up.univ-mrs.fr/~veronis/biblios/ptp.html