2018
csTenTen17, a Recent Czech Web Corpus
SUCHOMEL, VítZákladní údaje
Originální název
csTenTen17, a Recent Czech Web Corpus
Autoři
SUCHOMEL, Vít (203 Česká republika, garant, domácí)
Vydání
Brno, Proceedings of the Twelfth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2018, od s. 111-123, 13 s. 2018
Nakladatel
Tribun EU
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10200 1.2 Computer and information sciences
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Odkazy
Kód RIV
RIV/00216224:14330/18:00105270
Organizační jednotka
Fakulta informatiky
ISBN
978-80-263-1517-9
ISSN
UT WoS
000612420300014
EID Scopus
2-s2.0-85062200345
Klíčová slova anglicky
Czech corpus; web corpus; text processing
Příznaky
Mezinárodní význam
Změněno: 16. 5. 2022 15:44, Mgr. Michal Petr
Anotace
V originále
This article introduces a very large Czech text corpus for language research – csTenTen17 compiled from texts downloaded in 2015, 2016 and 2017. The corpus is consisting of 10.5 billion words reaching double the size of its predecessor from 2012. A brief comparison with other recent Czech corpora follows.
Návaznosti
LM2015071, projekt VaV |
|