J 2016

Lexicographic Tools to Build New Encyclopaedia of the Czech Language

HORÁK, Aleš a Adam RAMBOUSEK

Základní údaje

Originální název

Lexicographic Tools to Build New Encyclopaedia of the Czech Language

Název česky

Lexikografické nástroje pro tvorbu Nového encyklopedického slovníku češtiny

Autoři

HORÁK, Aleš (203 Česká republika, garant, domácí) a Adam RAMBOUSEK (203 Česká republika, domácí)

Vydání

The Prague Bulletin of Mathematical Linguistics, Prague (Czech Republic), Charles University, 2016, 0032-6585

Další údaje

Jazyk

angličtina

Typ výsledku

Článek v odborném periodiku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Kód RIV

RIV/00216224:14330/16:00090708

Organizační jednotka

Fakulta informatiky

Klíčová slova česky

encyklopedie; lexikografické nástroje; platforma DEB

Klíčová slova anglicky

encyclopaedia; lexicographic tools; DEB platform

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 9. 11. 2016 09:56, RNDr. Adam Rambousek, Ph.D.

Anotace

V originále

The first edition of the Encyclopaedia of the Czech Language was published in 2002 and since that time it has established as one of the basic reference books for the study of the Czech language and related linguistic disciplines. However, many new concepts and even new research areas have emerged since that publication. That is why a preparation of a complete new edition of the encyclopaedia started in 2011, rather than just re-printing the previous version with supplements. The new edition covers current research status in all concepts connected with the linguistic studies of (prevalently, but not solely) the Czech language. The project proceeded for five years and it has finished at the end of 2015, the printed edition is currently in preparation. An important innovation of the new encyclopaedia lies in the decision that the new edition will be published both as a printed book and as an electronic on-line encyclopaedia, utilizing the many advantages of electronic dictionaries. In this paper, we describe the lexicographic platform used for the Encyclopaedia preparation and the process behind the work flow consisting of more than 3,000 pages written by nearly 200 authors from all over the world. The paper covers the process of managing entry submissions, the development of tools to convert word processor files to an XML database, tools to cross-check and connect bibliography references from free text to structured bibliography entries, and the preparation of data for the printed publication

Česky

První vydání Encyklopedického slovníku češtiny bylo vydáno v roce 2002 a od té doby slouží jako jedna ze základních referenčních příruček pro studium češtiny a souvisejících lingvistických oborů. Ovšem od vydání se objevily nové koncepty a výzkumné oblasti. Proto v roce 2011 začala příprava naprosto nového, přepracovaného vydání, které bylo vhodnější než doplnění původního vydání o dodatky. Nové vydání pokrývá aktuální stav výzkumu v lingvistických oborech (převážně) češtiny. Project pokračoval pět let a byl dokončen na konci roku 2015, tištěná publikace je v současné době v přípravě. Důležitá inovace nové encyklopedie je v rozhodnutí vydat současně tištěnou knihu i elektronickou online encyklopedii, s využitím mnoha výhod elektronických slovníků. Tento článek popisuje lexikografickou platformu použitou pro tvorbu encyklopedie a metody při postupu práce na tvorbě více než 3000 stran textu od téměř 200 autorů z celého světa. Článek popisuje správu odevzdaných textů, vývoj nástroje pro konverzi z textových souborů do XML databáze, nástroje pro křížovou kontrolu odkazů mezi hesly a na literaturu z volného textu na strukturované bibliografické záznamy, a přípravu dat pro tištěné vydání.

Návaznosti

LD15066, projekt VaV
Název: Rozhraní pro Linked Data v systému pro editaci slovníků DEB (Akronym: DEB LDI)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Rozhraní pro Linked Data v systému pro editaci slovníků DEB
LM2015071, projekt VaV
Název: Jazyková výzkumná infrastruktura v České republice (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum
MUNI/A/0945/2015, interní kód MU
Název: Rozsáhlé výpočetní systémy: modely, aplikace a verifikace V.
Investor: Masarykova univerzita, Rozsáhlé výpočetní systémy: modely, aplikace a verifikace V., DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
7F14047, projekt VaV
Název: Harvesting big text data for under-resourced languages (Akronym: HaBiT)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Harvesting big text data for under-resourced languages

Přiložené soubory