D 2014

Disambiguating Verbs by Collocation: Corpus Lexicography meets Natural Language Processing

EL MAAROUF, Ismaïl, Bradbury JANE, Vít BAISA a Patrick HANKS

Základní údaje

Originální název

Disambiguating Verbs by Collocation: Corpus Lexicography meets Natural Language Processing

Autoři

EL MAAROUF, Ismaïl (250 Francie, garant), Bradbury JANE (826 Velká Británie a Severní Irsko), Vít BAISA (203 Česká republika, domácí) a Patrick HANKS (826 Velká Británie a Severní Irsko)

Vydání

Reykjavik, Iceland, Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), od s. 1001-1006, 6 s. 2014

Nakladatel

European Language Resources Association (ELRA)

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Island

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Odkazy

Kód RIV

RIV/00216224:14330/14:00076326

Organizační jednotka

Fakulta informatiky

ISBN

978-2-9517408-8-4

UT WoS

000355611002093

Klíčová slova anglicky

Corpus Pattern Analysis; Word Sense Disambiguation; Lexical Semantics

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 20. 7. 2018 14:44, Mgr. Michal Petr

Anotace

V originále

This paper reports the results of Natural Language Processing (NLP) experiments in semantic parsing, based on a new semantic resource, the Pattern Dictionary of English Verbs (PDEV) (Hanks, 2013). This work is set in the DVC (Disambiguating Verbs by Collocation) project , a project in Corpus Lexicography aimed at expanding PDEV to a large scale. This project springs from a long-term collaboration of lexicographers with computer scientists which has given rise to the design and maintenance of specific, adapted, and user-friendly editing and exploration tools. Particular attention is drawn on the use of NLP deep semantic methods to help in data processing. Possible contributions of NLP include pattern disambiguation, the focus of this article. The present article explains how PDEV differs from other lexical resources and describes its structure in detail. It also presents new classification experiments on a subset of 25 verbs. The SVM model obtained a micro-average F1 score of 0.81.

Návaznosti

LM2010013, projekt VaV
Název: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum