D 2014

Lhoucí nebo lžoucí ? Slovotvorné dublety procesuálních adjektiv na -oucí/-ící v českých korpusech

OSOLSOBĚ, Klára

Základní údaje

Originální název

Lhoucí nebo lžoucí ? Slovotvorné dublety procesuálních adjektiv na -oucí/-ící v českých korpusech

Název anglicky

Lhoucí or lžoucí ? Variants of Czech gerund (verbal adjectives on -oucí/-ící)

Autoři

OSOLSOBĚ, Klára (203 Česká republika, garant, domácí)

Vydání

Brno, Přednášky a besedy ze XLVII. běhu LŠSS, od s. 124-143, 20 s. 2014

Nakladatel

Masarykova univerzita

Další údaje

Jazyk

čeština

Typ výsledku

Stať ve sborníku

Obor

60203 Linguistics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Kód RIV

RIV/00216224:14210/14:00075733

Organizační jednotka

Filozofická fakulta

ISBN

978-80-210-6800-1

Klíčová slova anglicky

Corpus; corpus driven; corpus based; word formation; gerund

Příznaky

Mezinárodní význam
Změněno: 19. 2. 2018 10:04, doc. PhDr. Klára Osolsobě, Dr.

Anotace

V originále

Naším cílem je představit bohatství slovotvorných dublet procesuálních adjektiv v češtině. Poukážeme na vliv potenciálních dublet/triplet opěrných tvarů na tvoření procesuálních adjektiv na -oucí/-ící. Na ukázkách z korpusů demonstrujeme využití potenciality jazyka v oblasti paradigmatického tvoření. Budeme si všímat problému přegenerování při vyhledávání jednotlivých variant pomocí nástroje Morfio. Tento problém může zaujmout nejen odborníky na NLP, ale i studenty češtiny jako cizího jazyka, pro které bývá kamenem úrazu jak existence mnoha variant (s ohledem na jejich užití, které lze v korpusech dobře sledovat), tak problém přegenerování při aplikaci pracně naučených pravidel českého tvarosloví a slovotvorby.

Anglicky

Our goal is to present a corpus driven study of Czech gerund (verbal adjectives on -oucí/-ící). The link between inflective and word formation variants will be demonstrated on the material from corpus SYN (2,6 milliard tokens of written Czech) and large web corpus czTenTen12 (5,2 milliard tokens of Czech text from internet – cleaned and deduplicated). On some practical examples we shall display the overgeneration of word formation rules, witch is a problem of both NLP and second language mastering. The adjectives on -oucí/-ící are regularly derived from verbs hence are not usually registered in Czech monolingual dictionaries. Consequently text corpora are significant source of knowledge of their formation and of their usage, which can be a thing of importance for non-native speakers.