Recent Czech Web Corpora

SUCHOMEL, Vít. Recent Czech Web Corpora. In Aleš Horák, Pavel Rychlý. 6th Workshop on Recent Advances in Slavonic Natural Language Processing. Brno: Tribun EU, 2012, s. 77-83. ISBN 978-80-263-0313-8.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Recent Czech Web Corpora
Autoři	SUCHOMEL, Vít (203 Česká republika, garant, domácí).
Vydání	Brno, 6th Workshop on Recent Advances in Slavonic Natural Language Processing, od s. 77-83, 7 s. 2012.
Nakladatel	Tribun EU

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	60200 6.2 Languages and Literature
Stát vydavatele	Česká republika
Utajení	není předmětem státního či obchodního tajemství
Forma vydání	tištěná verze "print"
WWW	URL
Kód RIV	RIV/00216224:14330/12:00057973
Organizační jednotka	Fakulta informatiky
ISBN	978-80-263-0313-8
Klíčová slova anglicky	web corpora; czech corpus
Změnil	Změnil: RNDr. Vít Suchomel, Ph.D., učo 139723. Změněno: 25. 5. 2021 19:20.

Anotace
We introduce the largest Czech text corpus for language research – czTenTen12 with 5.4 billion tokens. A brief comparison with other recent Czech corpora follows.

Návaznosti
GAP401/10/0792, projekt VaV	Název: Temporální aspekty znalostí a informací
GAP401/10/0792, projekt VaV	Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací
LM2010013, projekt VaV	Název: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (Akronym: LINDAT-Clarin)
LM2010013, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum
VF20102014003, projekt VaV	Název: Analýza přirozeného jazyka v prostředí internetu (Akronym: APJI)
VF20102014003, projekt VaV	Investor: Ministerstvo vnitra ČR, Analýza přirozeného jazyka v prostředí internetu

VytisknoutZobrazeno: 19. 9. 2024 23:31

Recent Czech Web Corpora

Další aplikace