PELOUŠKOVÁ, Hana and Tomáš KÁŇA. Tvorba, funkce a využití Česko-německého paralelního korpusu (Construction, Functions and Usage of the Czech-German Parallel Corpus). In Gramatika a korpus / Grammar & Corpora 2005. 1st ed. Praha: Ústav pro jazyk český Akademie věd České republiky, 2007, p. 205-217. ISBN 80-86496-32-5.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name Tvorba, funkce a využití Česko-německého paralelního korpusu
Name in Czech Tvorba, funkce a využití Česko-německého paralelního korpusu
Name (in English) Construction, Functions and Usage of the Czech-German Parallel Corpus
Authors PELOUŠKOVÁ, Hana (203 Czech Republic, guarantor) and Tomáš KÁŇA (203 Czech Republic).
Edition 1. vyd. Praha, Gramatika a korpus / Grammar & Corpora 2005, p. 205-217, 13 pp. 2007.
Publisher Ústav pro jazyk český Akademie věd České republiky
Other information
Original language Czech
Type of outcome Proceedings paper
Field of Study 60200 6.2 Languages and Literature
Country of publisher Czech Republic
Confidentiality degree is not subject to a state or trade secret
RIV identification code RIV/00216224:14410/07:00022753
Organization unit Faculty of Education
ISBN 80-86496-32-5
Keywords in English corpus linguistics; Czech-German parallel corpus; contemporary Czech; contemporary German; contrastive research
Tags contemporary Czech, contemporary German, contrastive research, corpus linguistics, Czech-German Parallel Corpus
Tags International impact, Reviewed
Changed by Changed by: doc. Mgr. Tomáš Káňa, Ph.D., učo 363. Changed: 21/10/2007 20:02.
Abstract
Neexistence česko-německého paralelního korpusu (ČNPK) přiměla autory k jeho tvorbě již na sklonku 20. století. Práce na něm začaly v roce 2001 a již na začátku roku 2005 obsahoval více než 6,5 milionů textových slov jen v české paralele. Článek seznamuje se základními technickými i textovými parametry korpusu a uvádí příklady práce s tímto jedinečný instrumentem. Korpus bude částečně přístupný v rámci projektu multijazykového korpusu "Intercorp".
Abstract (in English)
The absence of a Czech-German parallel corpus ended in 2001 with the start of construction of The Czech-German parallel Corpus (CNPK) by the authors of this article. The CNPK runs under Bonito interface (the same as the CNC). It consists of two independent but linked parallels with a total of more than 6,5 million text words. The corpus is manually aligned, automatically tagged in both parts (tagger Ajka in the Czech part; Tree-Tagger in the German part). The CNPK is a general synchronic corpus trying to cover as many stylistic features as possible: texts preferably not older than 50 years; balanced in style: 50% fiction, 50% non-fiction (scientific texts from potentially all fields and public, esp. journalistic texts in the wider meaning). Obviously, there are no texts of the spoken language. All texts are of either Czech or German origin (no "third langue" texts). The CNPK will be partly accessible as a part of the multilingual corpus INTERCORP (https://trnka.ff.cuni.cz/ucnk/intercorp/)
Links
MSM0021620823, plan (intention)Name: Český národní korpus a korpusy dalších jazyků
PrintDisplayed: 27/4/2024 02:08