RAMBOUSEK, Adam, Aleš HORÁK, Vít BAISA a Vít SUCHOMEL. A New Approach for Semi-automatic Building and Extending a Multilingual Terminology Thesaurus. Online. International Journal on Artificial Intelligence Tools. USA: World Scientific Publishing, 2019, roč. 28, č. 2, s. 1-21. ISSN 0218-2130. Dostupné z: https://dx.doi.org/10.1142/S0218213019500088. [citováno 2024-04-23]
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název A New Approach for Semi-automatic Building and Extending a Multilingual Terminology Thesaurus
Název česky Nový přístup k poloautomatické tvorbě a rozšiřování vícejazyčného terminologického tezauru
Autoři RAMBOUSEK, Adam (203 Česká republika, garant, domácí), Aleš HORÁK (203 Česká republika, domácí), Vít BAISA (203 Česká republika, domácí) a Vít SUCHOMEL (203 Česká republika, domácí)
Vydání International Journal on Artificial Intelligence Tools, USA, World Scientific Publishing, 2019, 0218-2130.
Další údaje
Originální jazyk angličtina
Typ výsledku Článek v odborném periodiku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Spojené státy
Utajení není předmětem státního či obchodního tajemství
WWW Journal page arXiv preprint
Impakt faktor Impact factor: 0.689
Kód RIV RIV/00216224:14330/19:00109355
Organizační jednotka Fakulta informatiky
Doi http://dx.doi.org/10.1142/S0218213019500088
UT WoS 000463577400004
Klíčová slova česky tvorba tezauru; terminologický slovník; využití doménového korpusu; extrakce znalostí; extrakce termínů; platforma DEB; kontext obohacených znalostí
Klíčová slova anglicky Thesaurus building; terminology dictionary; domain-corpus exploitation; knowledge extraction; term extraction; DEB platform; knowledge-rich contexts
Štítky DEB platform, dictionary, dictionary editor
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 13. 4. 2020 22:38.
Anotace
This paper describes a new system for semi-automatically building, extending and managing a terminological thesaurus---a multilingual terminology dictionary enriched with relationships between the terms themselves to form a thesaurus. The system allows to radically enhance the workflow of current terminology expert groups, where most of the editing decisions still come from introspection. The presented system supplements the lexicographic process with natural language processing techniques, which are seamlessly integrated to the thesaurus editing environment. The system's methodology and the resulting thesaurus are closely connected to new domain corpora in the six languages involved. They are used for term usage examples as well as for the automatic extraction of new candidate terms. The terminological thesaurus is now accessible via a web-based application, which a) presents rich detailed information on each term, b) visualizes term relations, and c) displays real-life usage examples of the term in the domain-related documents and in the context-based similar terms. Furthermore, the specialized corpora are used to detect candidate translations of terms from the central language (Czech) to the other languages (English, French, German, Russian and Slovak) as well as to detect broader Czech terms, which help to place new terms in the actual thesaurus hierarchy. This project has been realized as a terminological thesaurus of land surveying, but the presented tools and methodology are reusable for other terminology domains.
Anotace česky
Článek popisuje nový systém pro poloautomatickou tvorbu, rozšiřování a správu terminologického tezauru - vícejazyčného terminologického slovníku obohaceného o vztahy mezi termíny, aby vytvořil tezaurus. Systém umožňuje výrazně zlepšit workflow existujících odborných terminologických skupin, které využívají pro editační rozhodnutí převážně introspekci. Představený systém doplňuje lexikografický proces pomocí technik zpracování přirozeného jazyka, které jsou integrovány do editačního prostředí tezauru. Metodologie systému a výsledný tezaurus jsou úzce spojeny s novým doménovým korpusem v šesti jazycích. Tyto se používají pro příklady použití termínů a také pro automatickou extrakci nových kandidátských termínů. Terminologický tezaurus je přístupný přes webovou aplikaci, která a) prezentuje podrobné obohacené informace o každém termínu, b) vizualizuje vztahy mezi termíny, c) zobrazuje skutečné příklady použití termínu v doménových dokumentech a v kontextu podobných termínů. Navíc jsou specializované korpusy použity pro detekci možných překladů termínu z původního jazyka (čeština) do ostatních jazyků (angličtiny, francouzština, němčina, ruština, slovenština) a také pro detekci nadřazených pojmů. Tento projekt byl realizován pro terminologický tezaurus zeměměřictví, ale nástroje a metodologie jsou využitelné také pro další odborné terminologie.
Návaznosti
MUNI/A/1018/2018, interní kód MUNázev: Rozsáhlé výpočetní systémy: modely, aplikace a verifikace VIII.
Investor: Masarykova univerzita, Rozsáhlé výpočetní systémy: modely, aplikace a verifikace VIII., DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
VytisknoutZobrazeno: 23. 4. 2024 15:00