D 2021

DMoG : A Data-Based Morphological Guesser

KOVÁŘ, Vojtěch a Pavel RYCHLÝ

Základní údaje

Originální název

DMoG : A Data-Based Morphological Guesser

Autoři

KOVÁŘ, Vojtěch (203 Česká republika, garant, domácí) a Pavel RYCHLÝ (203 Česká republika, domácí)

Vydání

Brno, Recent Advances in Slavonic Natural Language Processing (RASLAN 2021), od s. 135-138, 4 s. 2021

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10200 1.2 Computer and information sciences

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Kód RIV

RIV/00216224:14330/21:00123251

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-1670-1

ISSN

Klíčová slova anglicky

Lemmatization; Morphological guesser; Morphological analysis; Morphological guessing
Změněno: 15. 5. 2024 10:10, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

We present a novel corpus-based approach to lemmatization of unknown words. The tool learns affix patterns from annotated data, and based on these patterns, it predicts other word forms that should be present in the corpus. A lemma candidate then comes from the pattern whose predictions are really found in the corpus. We present a prototype implementation and an initial evaluation on Czech, which shows promising results.

Návaznosti

LM2018101, projekt VaV
Název: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy