-
Notifications
You must be signed in to change notification settings - Fork 3
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
«7 and »7 go to phonology.xfst to get their 7 stripped ( #3
Comments
Comment 13922Date: 2020-04-20 13:31:57 +0200 «» are modeled as «+LEFT:«7 in , in order to distinguish them «» used as derivation affix markers (?). Here is where they origin: grep 7 main/giella-shared/all_langs/src/morphology/stems/punctuation.lexc They are then removed in the kal phonology: grep 7 main/langs/kal/src/morphology/phonology.xfscript Now, let us see whether there are better ways of doing this. Sjur? |
Comment 13929Date: 2020-04-21 15:51:04 +0200 Brevveksling mellom Tino og meg (sjå nedanfor). Resultatet er som Tino refererer til (og «, » blir fjerna når hfst-tokenise blir køyrd utan -g). Det s Tino: Kal kan bygges igen, men rettelsen med » og « er forsvundet, så tokeniser virker ikke igen. Samme fejl som før. Et sanity check er at køre dette: Det korrekte output er: Lige nu giver den dette forkerte output i stedet: -- Tino Didriksen Her er mine testresultat (nedanfor). Slik eg forstår Tino vil vi ha Trond A. utan «7 -> 0 i fonologien: Versjonen av phonology.xfscript utan «7 -> « Brukt med hfst-lookup fungerer den korrekt: Brukt med tokeniser fjernar den hermeteiknet: B. med «7 -> 0 i fonologien: Brukt med tokeniser fjernar den hermeteiknet: (base) tf-hsl-m0016:kal ttr000$ e "«illu»"|hfst-tokenise -cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst Hvis » kan få en ægte analyse fra tokeniser ville det være bedst, men det kan den så vidt jeg ved ikke i første omgang. Vi har et wrapper script kal-tokenise der kører dem igen som enkelte tokens som så giver en analyse. Problemet var at de tomme cohorts fra tokeniseren ødelagde alt udenoms. Nu er de væk, så alt er godt igen. Hvad de har med «» at gøre aner jeg ikke. Rå output der er brugbart: Med wrapper script: Hvis det er muligt at få det færdige output fra tokeniser, så vil vi da selvfølgelig gerne det. Men der har indtil videre været mange ting som tokeniseren ikke kan, så derfor har vi kal-tokenise til at rette op på det. Men altså, det virker nu. -- Tino Didriksen |
This issue was created automatically with bugzilla2github
Bugzilla Bug 2659
Date: 2020-04-20T13:31:57+02:00
From: Trond Trosterud <<trond.trosterud>>
To: Sjur Nørstebø Moshagen <<sjur.n.moshagen>>
Last updated: 2020-04-21T15:51:04+02:00
The text was updated successfully, but these errors were encountered: