next up previous
Next: Semantic annotation Up: ELSNET-Project: Syntactic and Semantic Previous: Selection of German corpus

Subsections

Parsing of the sentences

LFG (Lexical Functional Grammar) Parsing

The selected sentences were tokenized and parsed using the XLE(Xerox Linguistic Environment) parser. Yet, format and features of this parser differ from the MATE/SPARKLE-format.

As LFG has more functional features they had to be mapped to the required features in the following way:

LFG                     target
-----------------------------
SUBJ                 -> SUBJ
OBJ                  -> OBJ
OBJ2                 -> IOBJ       (= NPgen,NPdat, second NPacc)
OBL                  -> ARGMOD     (preposition as INTRO)
XCOMP                -> XCOMP      (without predicative XCOMPs)
ADJUNCT, APP, POSS,  -> MOD
XCOMP                -> XCOMP-PRED (predicative XCOMPs)
MOD                  -> COMPOUND   (in compounds)

The format we received as a result of the parser after the mapping of the functional features looked as follows:

  fstructure('Translation of: h_127799749: wenn sie sich nicht selbst aufgeben will',
        % Properties:
        [
        transfer_grammar_name('transfer rules for TIGER'),
        time('Unspecified'),
        rootcategory('VLAST'),
        grammar('GERMAN GRAM')
        ],
        % Choices:
        [
        ],
        % Equivalences:
        [

        ],
        % Constraints:
        [
        cf(1, eq(attr(var(0),'SENTENCE-ID'),h_127799749)),
        cf(1, eq(attr(var(0),'SUBJ'),var(3))),
        cf(1, eq(attr(var(0),'XCOMP'),var(2))),
        cf(1, in_set(var(7),var(13))),
        cf(1, in_set(var(6),var(13))),
        cf(1, eq(attr(var(2),'DOBJ'),var(5))),
        cf(1, eq(attr(var(0),'MOD'),var(13))),
        cf(1, eq(attr(var(0),'PRED-ALL'),var(19))),
        cf(1, in_set('auf#geben',var(19))),
        cf(1, in_set(selbst,var(19))),
        cf(1, in_set(nicht,var(19))),
        cf(1, in_set(sie,var(19))),
        cf(1, in_set(sich,var(19))),
        cf(1, in_set(wollen,var(19))),
        cf(1, eq(attr(var(0),'LEMMA'),wollen)),
        cf(1, eq(attr(var(5),'LEMMA'),sich)),
        cf(1, eq(attr(var(3),'LEMMA'),sie)),
        cf(1, eq(attr(var(7),'LEMMA'),nicht)),
        cf(1, eq(attr(var(6),'LEMMA'),selbst)),
        cf(1, eq(attr(var(2),'LEMMA'),'auf#geben'))
        ],
        []).
fstructure('Translation of: h_107504781: wenn Sie sich nicht auf die Originalsprache 
verlassen müssen',
        % Properties:
        [
        transfer_grammar_name('transfer rules for TIGER'),
        time('Unspecified'),
        rootcategory('VLAST'),
        grammar('GERMAN GRAM')
        ],
        % Choices:
        [
        ],
        % Equivalences:
        [

        ],
        % Constraints:
        [
        cf(1, eq(attr(var(0),'SENTENCE-ID'),h_107504781)),
        cf(1, eq(attr(var(5),'INTRO'),auf)),
        cf(1, eq(attr(var(0),'SUBJ'),var(3))),
        cf(1, eq(attr(var(0),'XCOMP'),var(2))),
        cf(1, in_set(var(11),var(17))),
        cf(1, eq(attr(var(2),'DOBJ'),var(6))),
        cf(1, eq(attr(var(2),'ARGMOD'),var(5))),
        cf(1, eq(attr(var(0),'MOD'),var(17))),
        cf(1, eq(attr(var(0),'PRED-ALL'),var(23))),
        cf(1, in_set(verlassen,var(23))),
        cf(1, in_set('Sprache',var(23))),
        cf(1, in_set(nicht,var(23))),
        cf(1, in_set('Sie',var(23))),
        cf(1, in_set(sich,var(23))),
        cf(1, in_set(müssen,var(23))),
        cf(1, eq(attr(var(0),'LEMMA'),müssen)),
        cf(1, eq(attr(var(6),'LEMMA'),sich)),
        cf(1, eq(attr(var(3),'LEMMA'),'Sie')),
        cf(1, eq(attr(var(11),'LEMMA'),nicht)),
        cf(1, eq(attr(var(5),'LEMMA'),'Sprache')),
        cf(1, eq(attr(var(2),'LEMMA'),verlassen))
        ],
        []).

This format was then mapped in a two-step-process to the MATE/SPARKLE format by means of prolog and perl. The first step produced a flattened structure of the analysis, which could be checked easily. Besides, now the whole sentence was displayed and the nouns were extracted out of the clausal part containing the respective verb making them available for the semantic annotation.

h_127799749:

  01.  02.          03.    04.    05.   06.  07.         08.           09.  10.  11.
  An   irgendeinem  Punkt  hatte  sich  das  Bewußtsein  durchgesetzt  ,    daß  die

  12.  13.   14.     15.     16.  17.  18.   19.  20.   21.    22.     23.       24. 
  taz  eine  Grenze  ziehen  muß  ,    wenn  sie  sich  nicht  selbst  aufgeben  will

  25.
  .  

23    DOBJ     20
24    MOD      21
24    MOD      22
24    SUBJ     19
24    XCOMP    23

h_107504781:

  01.  02.  03.  04.          05.    06.  07.     08.  09.   10.  11.   12.    13.
  Der  Weg  zur  walisischen  Küche  ist  leicht  ,    wenn  Sie  sich  nicht  auf

  14.  15.              16.        17.     18.
  die  Originalsprache  verlassen  müssen  .  

17    MOD      12
17    SUBJ     10
17    XCOMP    16
16    DOBJ     11
16    ARGMOD   15  (INTRO auf)

NOUN Sprache

In a second step the format was mapped to the final MATE/SPARKLE format. It additionally includes the part-of-speech tags of all the words in the sentence and a reference to the corpora.

src=taz
An irgendeinem Punkt hatte sich das Bewußtsein durchgesetzt , 
daß die taz eine Grenze ziehen muß , wenn sie sich nicht selbst aufgeben will .
<w id=w01 type="APPR" lemma="an"> An </w>
<w id=w02 type="PIDAT" lemma="irgendeinem"> irgendeinem </w>
<w id=w03 type="NN" lemma="Punkt"> Punkt </w>
<w id=w04 type="VAFIN" lemma="haben"> hatte </w>
<w id=w05 type="PRF" lemma="sich"> sich </w>
<w id=w06 type="ART" lemma="d"> das </w>
<w id=w07 type="NN" lemma="Bewußtsein"> Bewußtsein </w>
<w id=w08 type="VVPP" lemma="durchsetzen"> durchgesetzt </w>
<w id=w09 type="$," lemma=","> , </w>
<w id=w10 type="KOUS" lemma="daß"> daß </w>
<w id=w11 type="ART" lemma="d"> die </w>
<w id=w12 type="NN" lemma="taz"> taz </w>
<w id=w13 type="ART" lemma="ein"> eine </w>
<w id=w14 type="NN" lemma="Grenze"> Grenze </w>
<w id=w15 type="VVINF" lemma="ziehen"> ziehen </w>
<w id=w16 type="VMFIN" lemma="müssen"> muß </w>
<w id=w17 type="$," lemma=","> , </w>
<w id=w18 type="KOUS" lemma="wenn"> wenn </w>
<w id=w19 type="PPER" lemma="PPER"> sie </w>
<w id=w20 type="PRF" lemma="sich"> sich </w>
<w id=w21 type="PTKNEG" lemma="nicht"> nicht </w>
<w id=w22 type="ADV" lemma="selbst"> selbst </w>
<w id=w23 type="VVINF" lemma="aufgeben"> aufgeben </w>
<w id=w24 type="VMFIN" lemma="wollen"> will </w>
<w id=w25 type="$." lemma="."> . </w>

<link id=01 s-type="DOBJ" targets = "w23 w20">
<link id=02 s-type="MOD" targets = "w24 w21">
<link id=03 s-type="MOD" targets = "w24 w22">
<link id=04 s-type="SUBJ" targets = "w24 w19">
<link id=05 s-type="XCOMP" targets = "w24 w23">

src=taz
Der Weg zur walisischen Küche ist leicht , 
wenn Sie sich nicht auf die Originalsprache verlassen müssen .
<w id=w01 type="ART" lemma="d"> Der </w>
<w id=w02 type="NN" lemma="Weg"> Weg </w>
<w id=w03 type="APPRART" lemma="zur"> zur </w>
<w id=w04 type="ADJA" lemma="walisisch"> walisischen </w>
<w id=w05 type="NN" lemma="Küche"> Küche </w>
<w id=w06 type="VAFIN" lemma="sein"> ist </w>
<w id=w07 type="ADJD" lemma="leicht"> leicht </w>
<w id=w08 type="$," lemma=","> , </w>
<w id=w09 type="KOUS" lemma="wenn"> wenn </w>
<w id=w10 type="PPER" lemma="PPER"> Sie </w>
<w id=w11 type="PRF" lemma="sich"> sich </w>
<w id=w12 type="PTKNEG" lemma="nicht"> nicht </w>
<w id=w13 type="APPR" lemma="auf"> auf </w>
<w id=w14 type="ART" lemma="d"> die </w>
<w id=w15 type="NN" lemma="Originalsprache" semtype="language"> Originalsprache </w>
<w id=w16 type="VVINF" lemma="verlassen"> verlassen </w>
<w id=w17 type="VMINF" lemma="müssen"> müssen </w>
<w id=w18 type="$." lemma="."> . </w>

<link id=01 s-type="MOD" targets = "w17 w12">
<link id=02 s-type="SUBJ" targets = "w17 w10">
<link id=03 s-type="XCOMP" targets = "w17 w16">
<link id=04 s-type="DOBJ" targets = "w16 w11">
<link id=05 s-type="ARGMOD" intro = "auf" targets = "w16 w15">

next up previous
Next: Semantic annotation Up: ELSNET-Project: Syntactic and Semantic Previous: Selection of German corpus
Hannah Kermes
2/8/2001