D 2019

Automating dictionary production: a Tagalog-English-Korean dictionary from scratch

BAISA, Vít, Marek BLAHUŠ, Michal CUKR, Ondřej HERMAN, Miloš JAKUBÍČEK et. al.

Základní údaje

Originální název

Automating dictionary production: a Tagalog-English-Korean dictionary from scratch

Autoři

BAISA, Vít (203 Česká republika, domácí), Marek BLAHUŠ (203 Česká republika), Michal CUKR (203 Česká republika), Ondřej HERMAN (203 Česká republika, domácí), Miloš JAKUBÍČEK (203 Česká republika, domácí), Vojtěch KOVÁŘ (203 Česká republika, domácí), Marek MEDVEĎ (703 Slovensko, domácí), Michal MĚCHURA (203 Česká republika, domácí), Pavel RYCHLÝ (203 Česká republika, domácí) a Vít SUCHOMEL (203 Česká republika, domácí)

Vydání

Brno, Czech Republic, Proceedings of the 6th Biennial Conference on Electronic Lexicography, od s. 805-818, 14 s. 2019

Nakladatel

Lexical Computing CZ s.r.o.

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Kód RIV

RIV/00216224:14330/19:00107599

Organizační jednotka

Fakulta informatiky

ISSN

Klíčová slova anglicky

Sketch Engine; Lexonomy; post-editing lexicography; dictionary; corpus; Tagalog; Filipino; English; Korean

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 22. 10. 2023 01:49, RNDr. Miloš Jakubíček, Ph.D.

Anotace

V originále

In this paper we present lexicographic work on a Tagalog-English-Korean dictionary. The dictionary is created entirely from scratch and all of its content (besides audio pronunciation) is initially generated fully automatically from a large web corpus that we built for these purposes, and then post-edited by human editors. The full size of the dictionary is 45,000 entries, out of which 15,000 most frequent entries are manually post-edited, while the remaining 30,000 entries are left only as automated. The project is currently ongoing and will be finished in December 2019. The dictionary will be part of the online platform run by the Naver Corporation and freely available.

Návaznosti

GA18-23891S, projekt VaV
Název: Hyperintensionální usuzování nad texty přirozeného jazyka
Investor: Grantová agentura ČR, Hyperintensionální usuzování nad texty přirozeného jazyka
LM2015071, projekt VaV
Název: Jazyková výzkumná infrastruktura v České republice (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum