STARÝ, Michal, Zuzana NEVĚŘILOVÁ a Jakub VALČÍK. Multilingual Recognition of Temporal Expressions. In Aleš Horák. Proceedings of the Fourteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2020. Brno: Tribun EU, 2020. s. 67-78. ISBN 978-80-263-1517-9.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Multilingual Recognition of Temporal Expressions
Autoři STARÝ, Michal (203 Česká republika, garant, domácí), Zuzana NEVĚŘILOVÁ (203 Česká republika, domácí) a Jakub VALČÍK (203 Česká republika).
Vydání Brno, Proceedings of the Fourteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2020, od s. 67-78, 12 s. 2020.
Nakladatel Tribun EU
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW PDF ve sborníku Domovská stránka sborníku
Organizační jednotka Fakulta informatiky
ISBN 978-80-263-1517-9
ISSN 2336-4289
Klíčová slova anglicky temporal expressions; multilingual; date recognition
Štítky date recognition, multilingual, temporal expressions
Příznaky Mezinárodní význam
Změnil Změnil: Marek Hríbik, učo 469109. Změněno: 17. 1. 2021 17:32.
Anotace
The paper presents a multilingual approach to temporal expression recognition (TER) using existing tools and their combination. We observe that the rules based methods perform well on documents using wellformed temporal expressions in a narrower domain (e.g., news), while data driven methods are more stable within less standard language and texts across domains. With combination of the two approaches, we achieved F1 of 0.73 and 0.9 for strict and relaxed evaluations respectively on one English dataset. Although these results do not achieve the state-of-the-art on English, the same method outperformed the state-of-the-art results in a multilingual setting not only in recall but also in F1. We see this as a strong indication that combining rule based systems with data driven models such as BERT is a valid approach to improve the overall performance in TER, especially for languages other than English. Further observations indicate that in the domain of office documents, the combined method is able to recognize general temporal expressions as well as domain specific ones (e.g., those used in financial documents).
Návaznosti
LM2018101, projekt VaVNázev: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Velké infrastruktury pro výzkum, vývoj a inovace
VytisknoutZobrazeno: 23. 4. 2021 17:21