TRANSLATION CORPUS ALIGNER (TCA) 2 |
|
|
Om programmet
Programmet sammenstiller setninger i en original tekst med tilhørende setninger i en oversatt tekst. Tekstene som skal parallellstilles må være kodet i XML og inndelt i setninger. Programmet gjør bruk av en liten tospråklig ordliste (ankerord) og utnytter også egennavn, tall og ord som ligner på hverandre i de to tekstene. Setningene som sammenstilles presenteres i to kolonner og det er mulig å interaktivt gjøre forandringer i det automatiske forslaget til sammenstilling. Programmet lager utfiler i to formater. Et format der taggen for hver setning har fått et corresp-attributt som inneholder id til tilhørende setning(er) og et format med like mange linjeslutttegn (som kan brukes av konkordansprogrammet Paraconc). Det siste formatet kan også konverteres til et HTML-format eller til et format som brukes av Corpus WorkBench. Programmet er skrevet av Øystein Reigem og er en nyimplementering av et program som ble skrevet av Knut Hofland til bruk i English-Norwegian Parallel Corpus (ENPC)
Programmet er brukt med følgende språkpar:
Opprinnelig prosjektbeskrivelse |
|
| Edit |