2024
Přegenerování a podgenerování : Jak efektivně vyhledávat v jazykových korpusech data pro lingvistický výzkum
OSOLSOBĚ, KláraZákladní údaje
Originální název
Přegenerování a podgenerování : Jak efektivně vyhledávat v jazykových korpusech data pro lingvistický výzkum
Název česky
Přegenerování a podgenerování : Jak efektivně vyhledávat v jazykových korpusech data pro lingvistický výzkum
Název anglicky
Over/under Generating : How to Search Data for Linguistic Analysis in Language Corpora
Autoři
Vydání
Kruh přátel českého jazyka, Univerzita Karlova, Praha, 4. 12. 2024, 2024
Další údaje
Jazyk
čeština
Typ výsledku
Vyžádané přednášky
Obor
60203 Linguistics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Odkazy
Označené pro přenos do RIV
Ano
Kód RIV
RIV/00216224:14210/24:00137906
Organizační jednotka
Filozofická fakulta
Klíčová slova česky
korpus; corpus based; corpus driven; přegenerovávání; podgenerovávání; lemma; tag; slovotvorba
Klíčová slova anglicky
corpus; corpus based; corpus driven; overgeneration; undegeneration; lemma; tag; word formation
Štítky
Změněno: 20. 2. 2025 09:58, Bc. Alena Kmochová
V originále
V přednášce ukážeme na případu typu kutil (deverbativních názvů osob - apelativ/proprií - tvořených konverzí l-ového příčestí k deklinačnímu typu pán), jak lze při kladení dotazu v korpusově založeném výzkumu slovotvorby korigovat přegenerování (zvýšit přesnost) a zabránit podgenerování (udržet pokrytí). Ověříme meze a možnosti formálního popisu (algoritmizace). Představíme výsledky kvantitativní analýzy založené na datech získaných z korpusu (corpus based). Naznačíme, jak lze data využít pro výzkum proprií. Zmíníme se o možnostech využití v počítačovém zpracování přirozeného jazyka (natural language processing - NLP), konkrétně pro oblast automatické morfologické analýzy.
Anglicky
In this talk, we will show, how to minimize the overgeneration (to increase accuracy) and to prevent undergeneration (to maintain coverage) in corpus-based word formation research. On a specific example of retrieval of candidates for a word formation model (kutil) we shall show how to use observation of corpus data for progressive specification of corpus query. The data obtained from the corpus will be analysed from a quantitative and qualitative point of view. Next, we show to what extent homonymy of nouns formed by conversion of l-participles has a negative effect on the results of POS disambiguation.
Návaznosti
| MUNI/A/1368/2023, interní kód MU |
|