OSOLSOBĚ, Klára. Značkování a status některých gramatických kategorií v ČNK (syntetické futurum, stupňování adjektiv, neurčité číslovky a příslovce míry). In Grammar & Corpora / Gramatika a korpus 2007. 1. vyd. Praha: Academia, 2008, s. 407-416. ISBN 978-80-200-1634-8.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Značkování a status některých gramatických kategorií v ČNK (syntetické futurum, stupňování adjektiv, neurčité číslovky a příslovce míry)
Název česky Značkování a status některých gramatických kategorií v ČNK (syntetické futurum, stupňování adjektiv, neurčité číslovky a příslovce míry)
Název anglicky Tagging and classification of selected grammatical categiries in the Czech National Corpus (synthetic future, comparative forms of adjectives, indefinite numerals and measure adverbs)
Autoři OSOLSOBĚ, Klára (203 Česká republika, garant).
Vydání 1. vyd. Praha, Grammar & Corpora / Gramatika a korpus 2007, od s. 407-416, 10 s. 2008.
Nakladatel Academia
Další údaje
Originální jazyk čeština
Typ výsledku Stať ve sborníku
Obor 60200 6.2 Languages and Literature
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Kód RIV RIV/00216224:14210/08:00025059
Organizační jednotka Filozofická fakulta
ISBN 978-80-200-1634-8
Klíčová slova anglicky Corpus; tagging; synthetic future; gradation; undefinite numeral
Štítky corpus, gradation, synthetic future, tagging, undefinite numeral
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnila: doc. PhDr. Klára Osolsobě, Dr., učo 1996. Změněno: 26. 3. 2010 12:11.
Anotace
Cílem našeho příspěvku je ukázat, jak mohou korpusová data přispět k doplnění popisů gramatických jevů zachycených ve slovnících a gramatikách na straně jedné a v lingvistických bázích automatických morfologických analyzátorů na straně druhé. Ke značkování řádově stamilionových korpusů se běžně používají automatické nástroje. V prostředí českých korpusů jsou to především dva analyzátory (taggery) pro morfologické značkování. Morfologický analyzátor Jana Hajiče, dále HA (Hajič, 1995, 2004, http://ucnk.ff.cuni.cz/bonito/index.html) a morfologický analyzátor Radka Sedláčka Ajka (Sedláček, 2005, http://nlp.fi.muni.cz/projekty/wwwajka). Lingvistickou bázi těchto analyzátorů byly mluvnice a slovníky, o něž se opíraly algoritmické popisy flexe (Hajič 1995, Osolsobě, 1996). Při aplikaci na jazykový materiál korpusů se ukázalo, že celá řada interpretací, které byly přiřazeny jednotkám na úrovni strojových slovníků, se plně nekryje s bohatstvím přirozeného jazyka, jak je prezentuje korpus. Vyšlo najevo, že s ohledem na zkušenosti z konkrétní praxe, je třeba některé interpretace zpětně verifikovat. V našem příspěvku si všimneme tří jevů: 1) syntetické futurum, 2) stupňování adjektiv a adverbií a 3) slovnědruhové přechody vybraných slov.
Anotace anglicky
The aim of this paper is to present how a corpus can be used as a device (source) to improve the description of chosen grammatical phenomena in dictionary and grammar on one hand and in morpholigical taggers on the other hand. Two automatic morphological taggers used for tagging of Czech language corpora (Hajič, 2004 and Sedláček, 2005) will be compared. We shall analyze how three phenomena: a) synthetic future in Czech, b) comparison of adjectiv and c) word class transposition of words like hodně, mnoho, moc, are annotated in CNK and how are they described in Czech dictionaries (Slovník spisovného jazyka českého and Slovník spisovné češtiny pro školu a veřejnost) and grammars (Mluvnice češtiny, 1986, Česká mluvnice, 1989, Příruční mluvnice češtiny, 1996, Čeština, řeč a jazyk, 1996). We shall discuss how the analysis of corpus mined data can be used for detecting of gaps in examined materials and how can it contribute to filling them in.
Návaznosti
GA405/98/0746, projekt VaVNázev: Čeština v jazykovědných pojmech(Slovník)
Investor: Grantová agentura ČR, Čeština v jazykovědných pojmech(Slovník)
VytisknoutZobrazeno: 25. 4. 2024 23:03