2013
Typos in Czech Corpora
GRÁC, MarekZákladní údaje
Originální název
Typos in Czech Corpora
Autoři
GRÁC, Marek (703 Slovensko, garant, domácí)
Vydání
Brno, Seventh Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2013, od s. 59-62, 4 s. 2013
Nakladatel
Tribun EU
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Odkazy
Kód RIV
RIV/00216224:14330/13:00070353
Organizační jednotka
Fakulta informatiky
ISBN
978-80-263-0520-0
Klíčová slova anglicky
text corpus; errors in text;
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 7. 6. 2021 22:15, RNDr. Pavel Šmerk, Ph.D.
Anotace
V originále
The extended usage of written corpora not only for manual querying but also for machine learning led to the creation of massive corpora. These corpora are almost solely crawled from the internet and contain texts of various quality. Corpora that contain more typos or ungrammatical texts are more difficult to use for computational linguists and are thus a major obstacle in automatic development. In this paper we attempt to qualify some of existing Czech corpora using manually created wordlist. We will show that building such a list of frequent typos can be done without major investing when agile techniques are used.
Návaznosti
LM2010013, projekt VaV |
|