BLAHUŠ, Marek, Michal CUKR, Ondřej HERMAN, Miloš JAKUBÍČEK, Vojtěch KOVÁŘ a Marek MEDVEĎ. Semi-automatic building of large-scale digital dictionaries. Online. In Proceedings of Electronic Lexicography in the 21st Century Conference (7th Biennial Conference on Electronic Lexicography, eLex 2021). Brno: Lexical Computing CZ s.r.o., 2021, s. 396-407. ISSN 2533-5626.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Semi-automatic building of large-scale digital dictionaries
Autoři BLAHUŠ, Marek (203 Česká republika), Michal CUKR (203 Česká republika), Ondřej HERMAN (203 Česká republika, domácí), Miloš JAKUBÍČEK (203 Česká republika, domácí), Vojtěch KOVÁŘ (203 Česká republika, domácí) a Marek MEDVEĎ (703 Slovensko, domácí).
Vydání Brno, Proceedings of Electronic Lexicography in the 21st Century Conference (7th Biennial Conference on Electronic Lexicography, eLex 2021), od s. 396-407, 12 s. 2021.
Nakladatel Lexical Computing CZ s.r.o.
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání elektronická verze "online"
WWW URL
Organizační jednotka Fakulta informatiky
ISSN 2533-5626
Klíčová slova anglicky post-editing lexicography; dictionary drafting; Sketch Engine
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 15. 5. 2024 14:54.
Anotace
This paper presents a novel way of creating dictionaries by using a particular post-editing workflow, all of which is carried out in the context of building a set of three bilingual dictionaries - Tagalog, Urdu and Lao dictionaries with translations into English and Korean. The dictionaries were created completely from scratch without reusing any existing content and in a completely automatic manner, amounting to 50, 000 headwords, out of which 15, 000 headwords were subject to subsequent manual post-editing. In the paper we discuss the post-editing methodology that we used and its impact on the overall lexicographic workflow. We describe the web corpora that were built specifically for the purpose of building these three dictionaries as well as their annotations (such as PoS tagging and lemmatisation) and tools that were used for the corpus annotation and for automating individual entry parts and the post-editing thereof. Most of the automatic drafting and post-editing relied on a backbone consisting of the Sketch Engine corpus management system and Lexonomy dictionary editor We also detail the overall amount of work involved in each post-editing step, the technical and managerial difficulties faced alongside in the project, and the major technological issues that still need improvement in the post-editing scenario.
Návaznosti
LM2018101, projekt VaVNázev: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy
VytisknoutZobrazeno: 22. 7. 2024 20:21