D 2012

Building A Thesaurus Using LDA-Frames

MATERNA, Jiří

Základní údaje

Originální název

Building A Thesaurus Using LDA-Frames

Název česky

Vytváření korpusu s použitím LDA rámců

Autoři

Vydání

Brno, 6th Workshop on Recent Advances in Slavonic Natural Language Processing, od s. 97-103, 7 s. 2012

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Označené pro přenos do RIV

Ano

Kód RIV

RIV/00216224:14330/12:00062319

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-0313-8

Klíčová slova česky

LDA rámce; thesaurus

Klíčová slova anglicky

LDA-frames; thesaurus
Změněno: 28. 5. 2021 12:02, RNDr. Jiří Materna, Ph.D.

Anotace

V originále

In this paper we present a new method for measuring semantic relatedness of lexical units, which can be used to generate a thesaurus automatically. The method is based on a comparison of probability distributions of semantic frames generated using the LDA-frames algorithm. The idea is evaluated by measuring the overlap of WordNet synsets and generated semantic clusters. The results show that the method outperforms another automatic approach used in the Sketch Engine project.

Česky

V práci je prezentována nová metoda měření sémantické podobnosti slov na základě LDA rámců. Použitím této metody je možné automaticky vytvořit thesaurus. Výsledky ukázaly, že thesaurus generovaný pomocí LDA rámců dosahuje vyšších kvalit než thesaurus generovaný nástrojem Sketch Engine.

Návaznosti

LM2010013, projekt VaV
Název: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum