KOVÁŘ, Vojtěch a Pavel RYCHLÝ. DMoG : A Data-Based Morphological Guesser. In Horák, Aleš; Rychlý, Pavel; Rambousek, Adam. Recent Advances in Slavonic Natural Language Processing (RASLAN 2021). Brno: Tribun EU, 2021, s. 135-138. ISBN 978-80-263-1670-1.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název DMoG : A Data-Based Morphological Guesser
Autoři KOVÁŘ, Vojtěch (203 Česká republika, garant, domácí) a Pavel RYCHLÝ (203 Česká republika, domácí).
Vydání Brno, Recent Advances in Slavonic Natural Language Processing (RASLAN 2021), od s. 135-138, 4 s. 2021.
Nakladatel Tribun EU
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10200 1.2 Computer and information sciences
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW Full text PDF Domovská stránka workshopu
Kód RIV RIV/00216224:14330/21:00123251
Organizační jednotka Fakulta informatiky
ISBN 978-80-263-1670-1
ISSN 2336-4289
Klíčová slova anglicky Lemmatization; Morphological guesser; Morphological analysis; Morphological guessing
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 15. 5. 2024 10:10.
Anotace
We present a novel corpus-based approach to lemmatization of unknown words. The tool learns affix patterns from annotated data, and based on these patterns, it predicts other word forms that should be present in the corpus. A lemma candidate then comes from the pattern whose predictions are really found in the corpus. We present a prototype implementation and an initial evaluation on Czech, which shows promising results.
Návaznosti
LM2018101, projekt VaVNázev: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy
VytisknoutZobrazeno: 30. 7. 2024 10:10