SUCHOMEL, Vít. Genre Annotation of Web Corpora: Scheme and Issues. In Kohei Arai, Supriya Kapoor, Rahul Bhatia. Proceedings of the Future Technologies Conference (FTC) 2020, Volume 1. Vancouver, Canada: Springer Nature Switzerland AG, 2021, s. 738-754. ISBN 978-3-030-63127-7. Dostupné z: https://dx.doi.org/10.1007/978-3-030-63128-4_55.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Genre Annotation of Web Corpora: Scheme and Issues
Autoři SUCHOMEL, Vít (203 Česká republika, garant, domácí).
Vydání Vancouver, Canada, Proceedings of the Future Technologies Conference (FTC) 2020, Volume 1, od s. 738-754, 17 s. 2021.
Nakladatel Springer Nature Switzerland AG
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 60203 Linguistics
Stát vydavatele Velká Británie a Severní Irsko
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW Elektronická verze sborníku
Kód RIV RIV/00216224:14330/21:00118741
Organizační jednotka Fakulta informatiky
ISBN 978-3-030-63127-7
ISSN 2194-5357
Doi http://dx.doi.org/10.1007/978-3-030-63128-4_55
Klíčová slova anglicky Corpus annotation; Inter-annotator agreement; Text genre; Web corpora
Štítky best, firank_B
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Vít Suchomel, Ph.D., učo 139723. Změněno: 10. 1. 2023 11:49.
Anotace
Unlike traditional corpora made from printed media in the past decades, sources of web corpora are not categorised and described well, thus making it difficult to control the content of the corpus. This paper presents an attempt to classify genres in a large English web corpus through supervised learning. A set of genres suitable for web corpora users is defined based on a research of related work. A genre annotation scheme with active learning rounds is introduced. A collection of web pages representing various genres that was created for this task and a scheme of consequent human annotation of the data set is described. Measuring the inter-annotator agreement revealed that either the problem may not be well defined, or that our expectations concerning the precision and recall of the classifier cannot be met. Eventually, the project was postponed at that point. Possible solutions of the issue are discussed at the end of the paper.
Návaznosti
GA18-23891S, projekt VaVNázev: Hyperintensionální usuzování nad texty přirozeného jazyka
Investor: Grantová agentura ČR, Hyperintensionální usuzování nad texty přirozeného jazyka
LM2018101, projekt VaVNázev: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy
VytisknoutZobrazeno: 23. 7. 2024 04:34