2014
Extrinsic Corpus Evaluation with a Collocation Dictionary Task
KILGARRIFF, Adam, Pavel RYCHLÝ, Miloš JAKUBÍČEK, Vojtěch KOVÁŘ, Vít BAISA et. al.Základní údaje
Originální název
Extrinsic Corpus Evaluation with a Collocation Dictionary Task
Autoři
KILGARRIFF, Adam (826 Velká Británie a Severní Irsko), Pavel RYCHLÝ (203 Česká republika, garant, domácí), Miloš JAKUBÍČEK (203 Česká republika, domácí), Vojtěch KOVÁŘ (203 Česká republika, domácí), Vít BAISA (203 Česká republika, domácí) a Lucia KOCINCOVÁ (703 Slovensko, domácí)
Vydání
Reykjavik, Iceland, Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), od s. 1-8, 8 s. 2014
Nakladatel
European Language Resources Association (ELRA)
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
elektronická verze "online"
Odkazy
Kód RIV
RIV/00216224:14330/14:00073227
Organizační jednotka
Fakulta informatiky
ISBN
978-2-9517408-8-4
UT WoS
000355611002024
Klíčová slova anglicky
corpus; evaluation; collocation
Štítky
Změněno: 20. 7. 2018 14:43, Mgr. Michal Petr
Anotace
V originále
The NLP researcher or application-builder often wonders ``what corpus should I use, or should I build one of my own? If I build one of my own, how will I know if I have done a good job?'' Currently there is very little help available for them. They are in need of a framework for evaluating corpora. We develop such a framework, in relation to corpora which aim for good coverage of `general language'. The task we set is automatic creation of a publication-quality collocations dictionary. For a sample of 100 headwords of Czech and 100 of English, we identify a gold standard dataset of (ideally) all the collocations that should appear for these headwords in such a dictionary. The datasets are being made available alongside this paper. We then use them to determine precision and recall for a range of corpora, with a range of parameters.
Návaznosti
LM2010013, projekt VaV |
| ||
VF20102014003, projekt VaV |
|