2021
Genre Annotation of Web Corpora: Scheme and Issues
SUCHOMEL, VítZákladní údaje
Originální název
Genre Annotation of Web Corpora: Scheme and Issues
Autoři
SUCHOMEL, Vít (203 Česká republika, garant, domácí)
Vydání
Vancouver, Canada, Proceedings of the Future Technologies Conference (FTC) 2020, Volume 1, od s. 738-754, 17 s. 2021
Nakladatel
Springer Nature Switzerland AG
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
60203 Linguistics
Stát vydavatele
Velká Británie a Severní Irsko
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Odkazy
Kód RIV
RIV/00216224:14330/21:00118741
Organizační jednotka
Fakulta informatiky
ISBN
978-3-030-63127-7
ISSN
Klíčová slova anglicky
Corpus annotation; Inter-annotator agreement; Text genre; Web corpora
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 10. 1. 2023 11:49, RNDr. Vít Suchomel, Ph.D.
Anotace
V originále
Unlike traditional corpora made from printed media in the past decades, sources of web corpora are not categorised and described well, thus making it difficult to control the content of the corpus. This paper presents an attempt to classify genres in a large English web corpus through supervised learning. A set of genres suitable for web corpora users is defined based on a research of related work. A genre annotation scheme with active learning rounds is introduced. A collection of web pages representing various genres that was created for this task and a scheme of consequent human annotation of the data set is described. Measuring the inter-annotator agreement revealed that either the problem may not be well defined, or that our expectations concerning the precision and recall of the classifier cannot be met. Eventually, the project was postponed at that point. Possible solutions of the issue are discussed at the end of the paper.
Návaznosti
GA18-23891S, projekt VaV |
| ||
LM2018101, projekt VaV |
|