D 2009

Classification of Errors in Text

JAKUBÍČEK, Miloš, Jan BUŠTA, Dana HLAVÁČKOVÁ a Karel PALA

Základní údaje

Originální název

Classification of Errors in Text

Název česky

Klasifikace chyb v textu

Autoři

JAKUBÍČEK, Miloš (203 Česká republika, domácí), Jan BUŠTA (203 Česká republika, domácí), Dana HLAVÁČKOVÁ (203 Česká republika, domácí) a Karel PALA (203 Česká republika, garant, domácí)

Vydání

1. vyd. Brno, RASLAN 2009 : Recent Advances in Slavonic Natural Language Processing, od s. 109-119, 11 s. 2009

Nakladatel

Masaryk University

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Kód RIV

RIV/00216224:14330/09:00038386

Organizační jednotka

Fakulta informatiky

ISBN

978-80-210-5048-8

UT WoS

000379213700015

Klíčová slova česky

klasifikace chyb; chyby v textu

Klíčová slova anglicky

errors in text; classification of errors

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 9. 10. 2019 22:33, Mgr. Michal Petr

Anotace

V originále

This paper presents two classifications of errors in Czech texts. As a basic resource we use the corpus (Chyby -- Errors) which has been continuously developed from 1999--2000 ([1]). The corpus text contains various kinds of errors such as spelling, typographical, grammatical, semantic, lexical, and stylistic ones. They have been corrected manually and annotated according to the classification of errors (annotation scheme) developed for this purpose. For the annotation we implemented a tool named WinCorr. We mention the first annotation scheme and discuss the second one which has been designed recently to obtain more adequate description of the errors occurring in texts. We also discuss the principles on which both classifications are based.

Česky

Tento článek prezentuje dvě klasifikace chyb v českých textech. Základním zdrojem je korpus Chyby, který byl vytvořen v letech 1999-2000 ([1]). Tento korpus obsahuje různé druhy chyb jako např. pravopisné, typografické, gramatické, sémantické, lexikální a stylistické. Tyto chyby byly ručně opraveny a vyznačeny podle anotačního schématu pro klasifikaci chyb, která byla pro tento účel vyvinuta. Za účelem anotace byl vyvinut nástroj zvaný WinCorr. V článku je popsáno první anotační schéma i jeho revize navržená za účelem získání přesnějšího popisu chyb, které se v textech vyskytují. Předmětem diskuse jsou zároveň základní principy, na nichž obě anotace staví.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
2C06009, projekt VaV
Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce