D 2018

csTenTen17, a Recent Czech Web Corpus

SUCHOMEL, Vít

Základní údaje

Originální název

csTenTen17, a Recent Czech Web Corpus

Autoři

SUCHOMEL, Vít (203 Česká republika, garant, domácí)

Vydání

Brno, Proceedings of the Twelfth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2018, od s. 111-123, 13 s. 2018

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10200 1.2 Computer and information sciences

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Kód RIV

RIV/00216224:14330/18:00105270

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-1517-9

ISSN

UT WoS

000612420300014

EID Scopus

2-s2.0-85062200345

Klíčová slova anglicky

Czech corpus; web corpus; text processing

Příznaky

Mezinárodní význam
Změněno: 16. 5. 2022 15:44, Mgr. Michal Petr

Anotace

V originále

This article introduces a very large Czech text corpus for language research – csTenTen17 compiled from texts downloaded in 2015, 2016 and 2017. The corpus is consisting of 10.5 billion words reaching double the size of its predecessor from 2012. A brief comparison with other recent Czech corpora follows.

Návaznosti

LM2015071, projekt VaV
Název: Jazyková výzkumná infrastruktura v České republice (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum