J 2018

Sustainable long-term WordNet development and maintenance: Case study of the Czech WordNet

RAMBOUSEK, Adam, Karel PALA and Aleš HORÁK

Basic information

Original name

Sustainable long-term WordNet development and maintenance: Case study of the Czech WordNet

Name in Czech

Dlouhodobě udržitelný vývoj a údržba WordNetu: případová studie češtiny

Authors

RAMBOUSEK, Adam (203 Czech Republic, guarantor, belonging to the institution), Karel PALA (203 Czech Republic, belonging to the institution) and Aleš HORÁK (203 Czech Republic, belonging to the institution)

Edition

Cognitive Studies | Études cognitives, Warsaw, University of Silesia in Katowice & The Slavic Foundation, 2018, 2080-7147

Other information

Language

English

Type of outcome

Článek v odborném periodiku

Field of Study

10201 Computer sciences, information science, bioinformatics

Country of publisher

Poland

Confidentiality degree

není předmětem státního či obchodního tajemství

References:

RIV identification code

RIV/00216224:14330/18:00101639

Organization unit

Faculty of Informatics

UT WoS

000457906200001

Keywords (in Czech)

EuroWordNet; BalkaNet; wordnet; Czech WordNet; DEBVisDic

Keywords in English

EuroWordNet; BalkaNet; wordnet; Czech WordNet; DEBVisDic

Tags

International impact, Reviewed
Změněno: 8/7/2022 13:33, RNDr. Adam Rambousek, Ph.D.

Abstract

V originále

Czech WordNet represents one of the first national wordnets created during the EuroWordNet and BalkaNet projects. However, the data contains various issues that affect the use of Czech WordNet in NLP applications. Since the publication of the first CzWN version, the semantic network was augmented in several phases, however, complex final editing and publishing process has not been finished. In 2017, we have started a project to evaluate and update the Czech WordNet, followed by a connection to the Collaborative Interlingual Index. In this paper, we provide an overview of Czech WordNet data updates and extensions, and present the roadmap to publish a revised version of the Czech WordNet under open license. Moreover, we introduce a developed concept for long-term updates and maintenance of the data based on crowdsourcing activities.

In Czech

Český Wordnet představuje jeden z prvních národních wordnetů, které byly vytvořeny během projektů EuroWordNet a BalkaNet. Bohužel data obsahují různé problémy, které mohou ovlivnit využití českého WordNetu v NLP aplikacích. Od zveřejněné první verze CzWN byly sémantická síť v několika fázích rozšířena, ale komplexní finální úpravy a proces zveřejněný zatím nejsou dokončené. V roce 2017 jsme spustili projekt k vyhodnocení a aktualizaci českého WordNetu a také propojení s Collaborative Interlingual Index. V tomto článku poskytujeme přehled verzí a rozšíření českého Wordnetu a také plán pro publikaci aktualizované verze s otevřenou licencí. Dále představujeme koncept dlouhodobých aktualizací a údržby dat založený na crowdsourcingu.

Links

GA18-23891S, research and development project
Name: Hyperintensionální usuzování nad texty přirozeného jazyka
Investor: Czech Science Foundation
LM2015071, research and development project
Name: Jazyková výzkumná infrastruktura v České republice (Acronym: LINDAT-Clarin)
Investor: Ministry of Education, Youth and Sports of the CR
MUNI/A/0854/2017, interní kód MU
Name: Rozsáhlé výpočetní systémy: modely, aplikace a verifikace VII.
Investor: Masaryk University, Category A