2014
Lhoucí nebo lžoucí ? Slovotvorné dublety procesuálních adjektiv na -oucí/-ící v českých korpusech
OSOLSOBĚ, KláraZákladní údaje
Originální název
Lhoucí nebo lžoucí ? Slovotvorné dublety procesuálních adjektiv na -oucí/-ící v českých korpusech
Název anglicky
Lhoucí or lžoucí ? Variants of Czech gerund (verbal adjectives on -oucí/-ící)
Autoři
OSOLSOBĚ, Klára (203 Česká republika, garant, domácí)
Vydání
Brno, Přednášky a besedy ze XLVII. běhu LŠSS, od s. 124-143, 20 s. 2014
Nakladatel
Masarykova univerzita
Další údaje
Jazyk
čeština
Typ výsledku
Stať ve sborníku
Obor
60203 Linguistics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Kód RIV
RIV/00216224:14210/14:00075733
Organizační jednotka
Filozofická fakulta
ISBN
978-80-210-6800-1
Klíčová slova anglicky
Corpus; corpus driven; corpus based; word formation; gerund
Příznaky
Mezinárodní význam
Změněno: 19. 2. 2018 10:04, doc. PhDr. Klára Osolsobě, Dr.
V originále
Naším cílem je představit bohatství slovotvorných dublet procesuálních adjektiv v češtině. Poukážeme na vliv potenciálních dublet/triplet opěrných tvarů na tvoření procesuálních adjektiv na -oucí/-ící. Na ukázkách z korpusů demonstrujeme využití potenciality jazyka v oblasti paradigmatického tvoření. Budeme si všímat problému přegenerování při vyhledávání jednotlivých variant pomocí nástroje Morfio. Tento problém může zaujmout nejen odborníky na NLP, ale i studenty češtiny jako cizího jazyka, pro které bývá kamenem úrazu jak existence mnoha variant (s ohledem na jejich užití, které lze v korpusech dobře sledovat), tak problém přegenerování při aplikaci pracně naučených pravidel českého tvarosloví a slovotvorby.
Anglicky
Our goal is to present a corpus driven study of Czech gerund (verbal adjectives on -oucí/-ící). The link between inflective and word formation variants will be demonstrated on the material from corpus SYN (2,6 milliard tokens of written Czech) and large web corpus czTenTen12 (5,2 milliard tokens of Czech text from internet – cleaned and deduplicated). On some practical examples we shall display the overgeneration of word formation rules, witch is a problem of both NLP and second language mastering. The adjectives on -oucí/-ící are regularly derived from verbs hence are not usually registered in Czech monolingual dictionaries. Consequently text corpora are significant source of knowledge of their formation and of their usage, which can be a thing of importance for non-native speakers.