csTenTen17, a Recent Czech Web Corpus

SUCHOMEL, Vít. csTenTen17, a Recent Czech Web Corpus. Online. In Aleš Horák, Pavel Rychlý and Adam Rambousek. Proceedings of the Twelfth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2018. Brno: Tribun EU, 2018. s. 111-123. ISBN 978-80-263-1517-9. [citováno 2024-04-24]

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	csTenTen17, a Recent Czech Web Corpus
Autoři	SUCHOMEL, Vít (203 Česká republika, garant, domácí)
Vydání	Brno, Proceedings of the Twelfth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2018, od s. 111-123, 13 s. 2018.
Nakladatel	Tribun EU

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	10200 1.2 Computer and information sciences
Stát vydavatele	Česká republika
Utajení	není předmětem státního či obchodního tajemství
Forma vydání	tištěná verze "print"
WWW	URL
Kód RIV	RIV/00216224:14330/18:00105270
Organizační jednotka	Fakulta informatiky
ISBN	978-80-263-1517-9
ISSN	2336-4289
UT WoS	000612420300014
Klíčová slova anglicky	Czech corpus; web corpus; text processing
Příznaky	Mezinárodní význam
Změnil	Změnil: Mgr. Michal Petr, učo 65024. Změněno: 16. 5. 2022 15:44.

Anotace
This article introduces a very large Czech text corpus for language research – csTenTen17 compiled from texts downloaded in 2015, 2016 and 2017. The corpus is consisting of 10.5 billion words reaching double the size of its predecessor from 2012. A brief comparison with other recent Czech corpora follows.

Návaznosti
LM2015071, projekt VaV	Název: Jazyková výzkumná infrastruktura v České republice (Akronym: LINDAT-Clarin)
LM2015071, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum

VytisknoutZobrazeno: 24. 4. 2024 09:23

csTenTen17, a Recent Czech Web Corpus

Další aplikace