D 2019

A Distributional Multi-word Thesaurus in Sketch Engine

JAKUBÍČEK, Miloš a Pavel RYCHLÝ

Základní údaje

Originální název

A Distributional Multi-word Thesaurus in Sketch Engine

Autoři

JAKUBÍČEK, Miloš (203 Česká republika, domácí) a Pavel RYCHLÝ (203 Česká republika, domácí)

Vydání

Brno, Proceedings of the Thirteenth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2019, od s. 143-147, 5 s. 2019

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10200 1.2 Computer and information sciences

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Kód RIV

RIV/00216224:14330/19:00111667

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-1530-8

ISSN

UT WoS

000604899800017

Klíčová slova anglicky

text corpus; Sketch Engine; MWE; multi-word expressions; thesaurus
Změněno: 15. 5. 2024 01:31, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

In this paper we present an extension of the current distribu-tional thesaurus as available in the Sketch Engine corpus managementsystem towards multi-word units. We explain how multi-word sketches areused to generate multi-word unit candidates, thus preserving access to theunderlying corpus texts. Finally we present sample results on the BritishNational Corpus and discuss future development as well as difficulties inevaluation.

Návaznosti

EF16_013/0001781, projekt VaV
Název: LINDAT/CLARIN - Výzkumná infrastruktura pro jazykové technologie - rozšíření repozitáře a výpočetní kapacity
LM2015071, projekt VaV
Název: Jazyková výzkumná infrastruktura v České republice (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum