2019
Neural Tagger for Czech Language: Capturing Linguistic Phenomena in Web Corpora
NEVĚŘILOVÁ, Zuzana a Marie STARÁZákladní údaje
Originální název
Neural Tagger for Czech Language: Capturing Linguistic Phenomena in Web Corpora
Autoři
NEVĚŘILOVÁ, Zuzana (203 Česká republika, domácí) a Marie STARÁ (203 Česká republika, domácí)
Vydání
Brno, Proceedings of the Thirteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2019, od s. 23-32, 10 s. 2019
Nakladatel
Tribun EU
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Odkazy
Kód RIV
RIV/00216224:14330/19:00111625
Organizační jednotka
Fakulta informatiky
ISBN
978-80-263-1517-9
ISSN
UT WoS
000604899800003
Klíčová slova anglicky
Czech Tagger; Multi-word Expressions; Pretrained WordEmbeddings
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 16. 5. 2022 15:20, Mgr. Michal Petr
Anotace
V originále
We propose a new tagger for the Czech language and particu-larly for the tagset used for annotation of corpora of the TenTen family.The tagger is based on neural networks with pretrained word embed-dings. We selected the newest Czech Web corpus of the TenTen familyas training data, but we removed sentences with phenomena that wereoften annotated incorrectly. We let the tagger to learn the annotation ofthese phenomena on its own. We also experimented with the recognitionof multi-word expressions since this information can support the correcttagging.We evaluated the tagger on 6,950 sentences (84,023 tokens) from thecstenten17corpus and achieved 75.25% accuracy when compared bytags. When compared by attributes, we achieved 91.62% accuracy; theaccuracy of POS tag prediction is 96.5%.
Návaznosti
EF16_013/0001781, projekt VaV |
| ||
LM2015071, projekt VaV |
|