D 2014

Lhoucí nebo lžoucí ? Slovotvorné dublety procesuálních adjektiv na -oucí/-ící v českých korpusech

OSOLSOBĚ, Klára

Basic information

Original name

Lhoucí nebo lžoucí ? Slovotvorné dublety procesuálních adjektiv na -oucí/-ící v českých korpusech

Name (in English)

Lhoucí or lžoucí ? Variants of Czech gerund (verbal adjectives on -oucí/-ící)

Authors

OSOLSOBĚ, Klára (203 Czech Republic, guarantor, belonging to the institution)

Edition

Brno, Přednášky a besedy ze XLVII. běhu LŠSS, p. 124-143, 20 pp. 2014

Publisher

Masarykova univerzita

Other information

Language

Czech

Type of outcome

Stať ve sborníku

Field of Study

60203 Linguistics

Country of publisher

Czech Republic

Confidentiality degree

není předmětem státního či obchodního tajemství

Publication form

printed version "print"

RIV identification code

RIV/00216224:14210/14:00075733

Organization unit

Faculty of Arts

ISBN

978-80-210-6800-1

Keywords in English

Corpus; corpus driven; corpus based; word formation; gerund

Tags

International impact
Změněno: 19/2/2018 10:04, doc. PhDr. Klára Osolsobě, Dr.

Abstract

ORIG EN

V originále

Naším cílem je představit bohatství slovotvorných dublet procesuálních adjektiv v češtině. Poukážeme na vliv potenciálních dublet/triplet opěrných tvarů na tvoření procesuálních adjektiv na -oucí/-ící. Na ukázkách z korpusů demonstrujeme využití potenciality jazyka v oblasti paradigmatického tvoření. Budeme si všímat problému přegenerování při vyhledávání jednotlivých variant pomocí nástroje Morfio. Tento problém může zaujmout nejen odborníky na NLP, ale i studenty češtiny jako cizího jazyka, pro které bývá kamenem úrazu jak existence mnoha variant (s ohledem na jejich užití, které lze v korpusech dobře sledovat), tak problém přegenerování při aplikaci pracně naučených pravidel českého tvarosloví a slovotvorby.

In English

Our goal is to present a corpus driven study of Czech gerund (verbal adjectives on -oucí/-ící). The link between inflective and word formation variants will be demonstrated on the material from corpus SYN (2,6 milliard tokens of written Czech) and large web corpus czTenTen12 (5,2 milliard tokens of Czech text from internet – cleaned and deduplicated). On some practical examples we shall display the overgeneration of word formation rules, witch is a problem of both NLP and second language mastering. The adjectives on -oucí/-ící are regularly derived from verbs hence are not usually registered in Czech monolingual dictionaries. Consequently text corpora are significant source of knowledge of their formation and of their usage, which can be a thing of importance for non-native speakers.
Displayed: 19/10/2024 23:19