MEDKOVÁ, Helena a Aleš HORÁK. Distinguishing the Types of Coordinated Verbs with a Shared Argument by means of New ZeugBERT Language Model and ZeugmaDataset. In Dimou, Anastasia; Neumaier, Sebastian; Pellegrini, Tassilo; Vahdati, Sahar. Towards a Knowledge-Aware AI : SEMANTiCS 2022 — Proceedings of the 18th International Conference on Semantic Systems, 13-15 September 2022, Vienna, Austria. Amsterdam: IOS Press, 2022, s. 206-218. ISBN 978-1-64368-320-1. Dostupné z: https://dx.doi.org/10.3233/SSW220022.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Distinguishing the Types of Coordinated Verbs with a Shared Argument by means of New ZeugBERT Language Model and ZeugmaDataset
Autoři MEDKOVÁ, Helena (203 Česká republika, garant, domácí) a Aleš HORÁK (203 Česká republika, domácí).
Vydání Amsterdam, Towards a Knowledge-Aware AI : SEMANTiCS 2022 — Proceedings of the 18th International Conference on Semantic Systems, 13-15 September 2022, Vienna, Austria, od s. 206-218, 13 s. 2022.
Nakladatel IOS Press
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 60203 Linguistics
Stát vydavatele Nizozemské království
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW URL
Kód RIV RIV/00216224:14210/22:00126225
Organizační jednotka Filozofická fakulta
ISBN 978-1-64368-320-1
Doi http://dx.doi.org/10.3233/SSW220022
Klíčová slova anglicky natural language understanding; coordinated verbs with shared argument; zeugma; BERT language model; dataset
Štítky firank_B, rivok
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: Mgr. et Mgr. Stanislav Hasil, učo 415267. Změněno: 30. 1. 2023 10:40.
Anotace
Sentences where two verbs share a single argument represent a complex and highly ambiguous syntactic phenomenon. The argument sharing relations must be considered during the detection process from both a syntactic and semantic perspective. Such expressions can represent ungrammatical constructions, denoted as zeugma, or idiomatic elliptical phrase combinations. Rule-based classification methods prove ineffective because of the necessity to reflect meaning relations of the analyzed sentence constituents. This paper presents the development and evaluation of ZeugBERT, a language model tuned for the sentence classification task using a pre-trained Czech transformer model for language representation. The model was trained with a newly prepared dataset, which is also published with this paper, of 7,849 Czech sentences to classify Czech syntactic structures containing coordinated verbs that share a valency argument (or an optional adjunct) in the context of coordination. ZeugBERT here reaches $88\,\%$ of test set accuracy. The text describes the process of the new dataset creation and annotation, and it offers a detailed error analysis of the developed classification model.
Návaznosti
MUNI/A/1184/2020, interní kód MUNázev: Využití strojového učení při detekci společného argumentu v koordinovaných strukturách
Investor: Masarykova univerzita, Využití strojového učení při detekci společného argumentu v koordinovaných strukturách
VytisknoutZobrazeno: 4. 5. 2024 12:45