D 2020

Multilingual Recognition of Temporal Expressions

STARÝ, Michal, Zuzana NEVĚŘILOVÁ a Jakub VALČÍK

Základní údaje

Originální název

Multilingual Recognition of Temporal Expressions

Autoři

STARÝ, Michal (203 Česká republika, garant, domácí), Zuzana NEVĚŘILOVÁ (203 Česká republika, domácí) a Jakub VALČÍK (203 Česká republika)

Vydání

Brno, Proceedings of the Fourteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2020, od s. 67-78, 12 s. 2020

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Kód RIV

RIV/00216224:14330/20:00117840

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-1600-8

ISSN

UT WoS

000655471300007

Klíčová slova anglicky

temporal expressions; multilingual; date recognition

Příznaky

Mezinárodní význam
Změněno: 16. 5. 2022 15:10, Mgr. Michal Petr

Anotace

V originále

The paper presents a multilingual approach to temporal expression recognition (TER) using existing tools and their combination. We observe that the rules based methods perform well on documents using wellformed temporal expressions in a narrower domain (e.g., news), while data driven methods are more stable within less standard language and texts across domains. With combination of the two approaches, we achieved F1 of 0.73 and 0.9 for strict and relaxed evaluations respectively on one English dataset. Although these results do not achieve the state-of-the-art on English, the same method outperformed the state-of-the-art results in a multilingual setting not only in recall but also in F1. We see this as a strong indication that combining rule based systems with data driven models such as BERT is a valid approach to improve the overall performance in TER, especially for languages other than English. Further observations indicate that in the domain of office documents, the combined method is able to recognize general temporal expressions as well as domain specific ones (e.g., those used in financial documents).

Návaznosti

LM2018101, projekt VaV
Název: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy