Přegenerování a podgenerování : Jak efektivně vyhledávat v
jazykových korpusech data pro lingvistický výzkum

p 2024

Přegenerování a podgenerování : Jak efektivně vyhledávat v jazykových korpusech data pro lingvistický výzkum

OSOLSOBĚ, Klára

Základní údaje

Originální název

Přegenerování a podgenerování : Jak efektivně vyhledávat v jazykových korpusech data pro lingvistický výzkum

Název česky

Přegenerování a podgenerování : Jak efektivně vyhledávat v jazykových korpusech data pro lingvistický výzkum

Název anglicky

Over/under Generating : How to Search Data for Linguistic Analysis in Language Corpora

Autoři

OSOLSOBĚ, Klára

Vydání

Kruh přátel českého jazyka, Univerzita Karlova, Praha, 4. 12. 2024, 2024

Další údaje

Jazyk

čeština

Typ výsledku

Vyžádané přednášky

Obor

60203 Linguistics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Odkazy

URL

Označené pro přenos do RIV

Ano

Kód RIV

RIV/00216224:14210/24:00137906

Organizační jednotka

Filozofická fakulta

Klíčová slova česky

korpus; corpus based; corpus driven; přegenerovávání; podgenerovávání; lemma; tag; slovotvorba

Klíčová slova anglicky

corpus; corpus based; corpus driven; overgeneration; undegeneration; lemma; tag; word formation

Štítky

rivok

Změněno: 20. 2. 2025 09:58, Bc. Alena Kmochová

Anotace

ORIG EN

V originále

V přednášce ukážeme na případu typu kutil (deverbativních názvů osob - apelativ/proprií - tvořených konverzí l-ového příčestí k deklinačnímu typu pán), jak lze při kladení dotazu v korpusově založeném výzkumu slovotvorby korigovat přegenerování (zvýšit přesnost) a zabránit podgenerování (udržet pokrytí). Ověříme meze a možnosti formálního popisu (algoritmizace). Představíme výsledky kvantitativní analýzy založené na datech získaných z korpusu (corpus based). Naznačíme, jak lze data využít pro výzkum proprií. Zmíníme se o možnostech využití v počítačovém zpracování přirozeného jazyka (natural language processing - NLP), konkrétně pro oblast automatické morfologické analýzy.

Anglicky

In this talk, we will show, how to minimize the overgeneration (to increase accuracy) and to prevent undergeneration (to maintain coverage) in corpus-based word formation research. On a specific example of retrieval of candidates for a word formation model (kutil) we shall show how to use observation of corpus data for progressive specification of corpus query. The data obtained from the corpus will be analysed from a quantitative and qualitative point of view. Next, we show to what extent homonymy of nouns formed by conversion of l-participles has a negative effect on the results of POS disambiguation.

Návaznosti

MUNI/A/1368/2023, interní kód MU

Název: Lexikon a gramatika češtiny IV - 2024

Investor: Masarykova univerzita, Lexikon a gramatika češtiny IV - 2024

Přehled o publikaci