D 2007

Tvorba, funkce a využití Česko-německého paralelního korpusu

PELOUŠKOVÁ, Hana a Tomáš KÁŇA

Základní údaje

Originální název

Tvorba, funkce a využití Česko-německého paralelního korpusu

Název česky

Tvorba, funkce a využití Česko-německého paralelního korpusu

Název anglicky

Construction, Functions and Usage of the Czech-German Parallel Corpus

Autoři

PELOUŠKOVÁ, Hana (203 Česká republika, garant) a Tomáš KÁŇA (203 Česká republika)

Vydání

1. vyd. Praha, Gramatika a korpus / Grammar & Corpora 2005, od s. 205-217, 13 s. 2007

Nakladatel

Ústav pro jazyk český Akademie věd České republiky

Další údaje

Jazyk

čeština

Typ výsledku

Stať ve sborníku

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14410/07:00022753

Organizační jednotka

Pedagogická fakulta

ISBN

80-86496-32-5

Klíčová slova anglicky

corpus linguistics; Czech-German parallel corpus; contemporary Czech; contemporary German; contrastive research

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 21. 10. 2007 20:02, doc. Mgr. Tomáš Káňa, Ph.D.

Anotace

V originále

Neexistence česko-německého paralelního korpusu (ČNPK) přiměla autory k jeho tvorbě již na sklonku 20. století. Práce na něm začaly v roce 2001 a již na začátku roku 2005 obsahoval více než 6,5 milionů textových slov jen v české paralele. Článek seznamuje se základními technickými i textovými parametry korpusu a uvádí příklady práce s tímto jedinečný instrumentem. Korpus bude částečně přístupný v rámci projektu multijazykového korpusu "Intercorp".

Anglicky

The absence of a Czech-German parallel corpus ended in 2001 with the start of construction of The Czech-German parallel Corpus (CNPK) by the authors of this article. The CNPK runs under Bonito interface (the same as the CNC). It consists of two independent but linked parallels with a total of more than 6,5 million text words. The corpus is manually aligned, automatically tagged in both parts (tagger Ajka in the Czech part; Tree-Tagger in the German part). The CNPK is a general synchronic corpus trying to cover as many stylistic features as possible: texts preferably not older than 50 years; balanced in style: 50% fiction, 50% non-fiction (scientific texts from potentially all fields and public, esp. journalistic texts in the wider meaning). Obviously, there are no texts of the spoken language. All texts are of either Czech or German origin (no "third langue" texts). The CNPK will be partly accessible as a part of the multilingual corpus INTERCORP (https://trnka.ff.cuni.cz/ucnk/intercorp/)

Návaznosti

MSM0021620823, záměr
Název: Český národní korpus a korpusy dalších jazyků