|
NYHETER
|
Prosjektbeskrivelse
Revidert prosjektbeskrivelse, prosjektnummer 159664/540 ved NFR.Prof. Koenraad de Smedt, 29 oktober 2003. 1 Bakgrunn og hovedmål
En språkmodell kan kort beskrives som en representasjon som koder kunnskap om språk og språkprosesser, i en form som lett kan benyttes av dataprogrammer. Språkmodeller benyttes både i grunnforskning og i språkteknologiske anvendelser. I modellering av språkkunnskaper og språkprosesser har mange nye metoder blitt utviklet de siste årene. Bruk av modelleringsmetoder basert på statistikk, informatikk, nevrologi og kognitiv psykologi gjør at språkmodellering i dag vanskelig lar seg plassere innen fagområdet lingvistikk i snever forstand. Særlig har forskning på datadrevne metoder resultert i nye vitenskapelige paradigmer for språkmodellering, noe som også har resultert i helt nye måter å lage språkteknologiske produkter på, basert på maskinlæring. Felles for mange av de nye modellene er at utvikling er helt avhengig av betydelige mengder språklige datasamlinger: annoterte korpus, tale og transkribert tale, leksikalske databaser, osv. Jo mer disse samlingene er annotert med lingvistisk informasjon, desto mer verdifulle blir disse samlingene for språkmodellering. Fremtidig utvikling av en omfattende norsk språkbank vil forutsette en betydelig innsats av høyt kvalifisert arbeidskraft, ettersom mye av analysen og annotasjonen må skje manuelt. Det er således ikke et formål med TREPIL å bygge slike samlinger. Derimot er hovedmålet å utvikle og evaluere metoder som kan brukes til slike formål. TREPIL tar sikte på å utvikle prinsipper, metoder og redskaper som kan brukes til oppbygging av en norsk database for modellering av språkstrukturer. En slik database kalles vanligvis en trebank; men en mer presis definisjon er et korpus annotert med syntaktiske og evt. semantiske strukturer. Hver setning i korpuset er forsynt med én eller flere strukturelle analyser som representerer grupperingen i fraser og delfraser og frasenes kategorier (nominalfrase osv.). I tillegg kan setningen være annotert med mer nyansert syntaktisk informasjon, som f.eks. funksjonell struktur (subjekt, objekt osv.) og semantisk struktur (predikat-argument-struktur). Ideelt sett skal en trebank for et språk være så omfattende at den inneholder et godt utvalg av alle mulige typer strukturer og kan dermed betraktes som en referanse og et holdepunkt for språkforskningen. Det finnes idag ingen norsk trebank. På NoDaLiDa 2003 rapporterte flere prosjekter at denne mangelen var til betydelig hinder for språkteknologisk forskning og utvikling. Mens Oslo-Bergen-taggeren idag i betydelig grad dekker behovet for automatisk morfologisk og overfladisk syntaktisk merking for norsk språk, gjenstår fremdeles forskning på metoder for annotasjon av dypere syntaktiske og semantiske strukturer. Slik forskning, som er helt avgjørende for oppbygging av en trebank, er hovedmålet i TREPIL. Trebanker er verdifulle ressurser for språkteknologisk forskning og utvikling. De kan være grunnlag for statistiske undersøkelser av strukturer i språket, og de kan brukes i testing av systemer som utfører statistisk basert analyse. Sistnevnte type systemer er gjerne resultat av maskinlæringsmetoder - metoder for automatisk ekstraksjon av språkkunnskap fra språklige data. Systemer med realistisk dekningsgrad må antagelig basere seg i hvert fall delvis på statistiske metoder, og trebanker kan utgjøre en "gullstandard" ved utprøvning av slike systemer. Bruksområdene for systemer som kan utføre syntaktisk analyse, er mange - f.eks. nyansert innholdsklassifisering av dokumenter og maskinoversettelse. Den mest kjente trebanken internasjonalt er Penn Treebank for engelsk [2]. Den er bygget opp ved manuell analyse av korpus og annoterer bare fraseinndeling og frasekategorier i setningene. Den er også en statisk ressurs i en forstand at den ikke er lett tilgjengelig for systematisk oppdatering og revisjon. En mer moderne trebank bør tilfredsstille i hvert fall følgende krav:
Metodene i TREPIL skal i prinsippet være språkuavhengige, men vi vil ta særlig hensyn til at de skal kunne appliseres på norske data. Derfor inngår oppbygging av en prototyp av en norsk trebank. Et interessant prosjekt som kan både tjene som mønster og levere verktøy er TIGER [5]. Dette prosjektet har fått oppmerksomhet i bl.a. Nordisk Trebanknettverk (NTN; se nedenfor). 2 Oppgavene og metode
Kjerneoppgaven i prosjektet utgjøres av kartlegging og utvikling i henhold til norsk språk og brukerbehov. Hovedmålet med denne komponenten er å utforske måter for integrering av ulik strukturell informasjon om setninger. Forskningsmetoden for dette målet innebærer en informasjonsanalyse som skal resultere i et databasedesign. Resultatet skal være en detaljert skisse for en norsk trebank som et integrert kunnskapssystem. Som et viktig ledd i denne prosessen inngår en grundig evaluering av såvel eksisterende verktøy som norske språkressurser som kan bidra til oppbygging av en norsk trebank. TREPIL vil ikke selv utvikle nye verktøy eller ressurser, men vil foreta utførlig testing, som til en viss grad også innebærer tilpasninger. Denne delen utføres i samarbeid med andre prosjekter og NTN. Det tas sikte på følgende hovedaktiviteter ifm. testing og evaluering:
De ulike strukturelle analysene som integreres i TREPIL kommer fra ulike komponenter. Følgende forskningsspørsmål vil derfor stå sentralt i prosjektet:
Prosjektet kan derved klart relateres til målet om å utvikle en norsk trebank. Likevel omfatter det aktuelle målet både mer og mindre enn oppbygging av en trebank. På den ene siden skal det utvikles metoder som ikke begrenser seg til syntaktiske trær i vanlig forstand, men som også inkluderer ikke-trær, nemlig partielle analyser, funksjonelle strukturer og semantiske strukturer (predikat-argumentstrukturer). På den andre siden er det innenfor dette prosjektet ikke mulig å bygge opp en database i full størrelse. TREPIL er i all hovedsak rettet mot utvikling av prinsipper og metoder. Gjennom en tett kobling mellom de ulike komponentene i prosjektet, og gjennom tett samarbeid med andre, vil TREPIL likevel kunne levere en prototyp på en database for strukturell modellering av setninger. En fremtidig trebank er tenkt som et virtuelt laboratorium som vil kunne gi vesentlige bidrag til utvikling av språkrelaterte fag og forskningsprosjekter knyttet til språkmodellering og språkteknologi. TREPIL vil dermed kunne gi en viktig stimulans ikke bare til språkteknologisk forsknings- og utviklingsarbeid, men også til fornyelse av et bredt spekter av forskning innen lingvistiske fag. 3 Forskningsmiljø og samarbeid
Prosjektets drift vil bli lagt til Avdeling for kultur, språk og informasjonsteknologi (AKSIS) i Unifob. Det faglige tyngdepunktet vil ligge ved lingvistikkseksjonen ved Institutt for lingvistikk og litteraturvitenskap, UiB, med aktiv deltakelse av ansatte ved AKSIS. Professor Koenraad de Smedt vil bli prosjektleder. Mestparten av forskningsarbeidet utføres av en postdoc; denne stillingen vil bli utlyst. Dette samlede miljøet har en bred kontakt med nasjonale og internasjonale forskningsinstitusjoner og relaterte forskningsprosjekter. Av stor relevans for dette prosjektet er at miljøet i Bergen er med i et nordisk nettverk (NTN) knyttet til utvikling av trebanker, ledet av professor Joakim Nivre ved Växjö universitet. Samarbeidspartnere i dette nettverket er CSC Scientific Computing, Göteborgs universitet, Handelshøjskolen i København, Helsinki Universitet, Kungliga Tekniska Högskolan, Islands universitet, NTNU, Stockholms universitet, Syddansk universitet, Universitetet i Bergen, Universitetet i Oslo, Universitetet i Tartu, Uppsala universitet og Växjö universitet. I kontekst av TREPIL vil dette samarbeidet hovedsakelig bestå av testing av programvare og utvikling av felles annotasjonsformater. Siden det nordiske nettverket kun støtter rammene for samarbeid, men ikke selve forskningsinnsatsen, er oppstart av TREPIL avgjørende for at reell norsk deltagelse i dette nordiske samarbeidet oppnår en viss tyngde [1]. Det finnes allerede kontakter med IMS i Stuttgart i kontekst av ParGram-prosjektet. Disse kontakter vil bli oppretthold og utvidet ifm. bruk av TIGER. TREPIL vil opprette konkrett samarbeid med tre KUNSTI-prosjekter som UiB-miljøet deltar i: LOGON, BREDT og KUNDOC. Disse prosjektene har deltakelse på tvers av norske institusjoner slik at det er betydelig potensiale for kunnskapsoverføring og synergi. 4 Prosjektplan
Følgende forskningsaktiviteter defineres for TREPIL:
Såvel informasjonsanalysen som evaluering av språkressurser konkretiseres gjennom annotasjon av et lite testkorpus. Særlig lovende som annotasjonsmetode er en kombinasjon av XLE-parseren, NorGram-grammatikken og TIGER-korpusprogramvaren. En slik metode er blitt utprøvd for tysk i kontekst av TIGER-prosjektet [5]. Med dette prosjektet som mønster vil analyser av norske setninger ved hjelp av NorGram-grammatikken og XLE-parseren bli overført til TIGER-formatet. Prosjektet NorGram [3] har levert en stor grammatikk for norsk, som for tiden bl.a. blir brukt og vedlikeholdt i prosjektet LOGON. Denne grammatikken dekker de sentrale konstruksjonstyper i norsk og er kombinert med et stort leksikon, men omfattende testing mot korpus gjenstår. Slik omfattende testing er det heller ikke rom for i TREPIL, men annotasjonsmetoden skal testes på et testkorpus. Grammatikken er istand til å generere følgende strukturer i analyse av en setning:
Annotasjon med NorGram-grammatikken forutsetter parseren XLE (Xerox Linguistic Environment) som er tilgjengelig på UiB etter avtale med PARC. XLE er et kraftig kunnskapsbasert verktøy for parsing av setninger, som lett kan kjøres på en tekstsamling. Kodingen av de ulike strukturelle representasjonene (bl.a. charts og forests) må tilpasses slik at det kan legges inn i trebanken. Kjernen i XLE er en effektiv unifikasjonsbasert parser som kan levere de ulike strukturelle beskrivelsene som er nevnt ovenfor, så lenge parseren er utstyrt med en velformet og korrekt grammatikk. I tillegg inneholder XLE komponenter for morfologisk analyse og er i stand til å håndtere ulike leksikon. Videreutvikling av grammatikken inkluderer bl.a. bruk av optimalitetsteori for å redusere tvetydighet i analysene, og spesialbehandling av setninger i korpuset som ikke er fullstendig grammatisk (fragmentparsing). Videreutvikling av leksikonet består i all hovedsak av å legge til opplysninger for ord som mangler i ordlisten. Med tanke på arbeidets omfang vil disse utvidelsene kun bli foretatt mht. testkorpuset. For å oppnå et bredere grunnlag i testing av trebankopplegget, vil det også bli foretatt merking ved hjelp av Oslo-Bergen-taggeren, som er basert på Constraint Grammar. Til slutt vil diskurskjeder (jf. BREDT-prosjektet) bli merket. 5 Milepæler og resultater
Resultattype er angitt mellom parenteser.
6 Styrking av kompetanse og kunnskapsformidling
TREPIL er rettet mot kunnskapsutvikling og kunnskapsspredning fra erfarne forskere til yngre forskere og kunnskapsdeling mellom forskningsinstitusjoner også på tvers av nasjonale grenser. TREPIL er avhengig av spisskompetanse innen datalingvistikk og forutsetter bl.a. ferdigheter relatert til norsk grammatikk, semantikk, og databaser. For å dekke dette kompetansebehovet vil det bli lyst ut en postdoc-stilling. Kompetanseoverføring vil også styrkes ved å motta gjesteforskere a 3 mnd. pr år. Det tas sikte på å bruke kontakter i NTN og TIGER for rekruttering av disse gjesteforskerne. Med visse begrensninger kan det også mottas gjesteforskere i rammen av BATMULT[6]. Videre tas det sikte på å involvere studenter i prosjektet. Masterstudent Unni Eiken (UiB) vil delta i annotasjon av treningskorpuset ved hjelp av NorGram-ressursene. Det nordiske nettverket om trebanker (NTN) utgjør det viktigste forumet for kunnskapsdeling og formidling av forskningsresultatet fra TREPIL. Prosjektdeltakerne vil delta aktivt på aktivitetene i NTN. I samarbeid med NTN vil det organiseres forskningsaktiviteter og formidling, bl.a. workshop. Videre vil formidling skje gjennom publikasjoner og deltagelser på de vanlige konferansene om datalingvistikk og språkteknologi bl.a. COLING, ACL, EACL og NoDaLiDa. Prosjektet vil opprette sitt eget nettsted for kunnskapsformidling; videre vil evenementer ifm. prosjektet og forskningsresultatene bli kunngjort gjennom Norsk dokumentasjonssenter for språkteknologi. 7 Budsjett
Revidert budsjett går ut fra følgende tallene (i NOK pr. år):
Totalt er det budsjettert i underkant av 1 MNOK pr. år. 8 Oppsummering
TREPIL har som mål å utvikle metoder for språkmodellering basert på integrering av annoterte språklige data. Resultatet vil bli en prototyp av et virtuelt laboratorium for empirisk forskning på syntaks. Det vil forskes på evaluering og tilpasning av eksisterende ressurser for norsk, og på integrering av ulik strukturell informasjon innenfor rammen av en database. TREPIL vil kunne gi en viktig stimulans til fremtidig oppbygging av en norsk trebank, og på lengre sikt også til et bredt spekter av språkteknologisk forsknings- og utviklingsarbeid, samt fornyelse av forskning innen lingvistiske fag. 9 Litteratur
[1] Ang. trebankens aktuelle status innen Norden viser vi til det svenske trebankprosjektet (http://www.masda.vxu.se/~nivre/research/st.html), til Svensk Trädbankssymposium, 28-29 november 2002, Växjö universitet og til The Second Workshop on Treebanks and Linguistic Theories (TLT 2003), 14-15 November 2003, Växjö, Sweden. Det finnes også pekere og referanser til litteratur på http://www.speech.kth.se/%7Ebea/treebank.html. Hjemmesiden til det nordiske trebanknettverket er http://www.masda.vxu.se/~nivre/research/nt.html. [2] Penn treebank: http://www.cis.upenn.edu/~treebank/. [3] Dyvik, Helge & Victoria Rosén (2003). NorGram sluttrapport til Norges forskningsråd. [4] BREDT: http://spraktek.aksis.uib.no/projects/bredt. [5] TIGER: http://www.ims.uni-stuttgart.de/projekte/TIGER/. [6] BATMULT: http://helmer.hit.uib.no/batmult/. |
| Rediger |