D 2019

SkELL Corpora as a Part of the Language Portal Sonaveeb: Problems and Perspectives

KOPPEL, Kristina; Jelena KALLAS; Maria KHOKHLOVÁ; Vít SUCHOMEL; Vít BAISA et. al.

Základní údaje

Originální název

SkELL Corpora as a Part of the Language Portal Sonaveeb: Problems and Perspectives

Autoři

KOPPEL, Kristina; Jelena KALLAS; Maria KHOKHLOVÁ; Vít SUCHOMEL; Vít BAISA a Jan MICHELFEIT

Vydání

Brno, Czech Republic, Proceedings of the 6th Biennial Conference on Electronic Lexicography, od s. 763-782, 20 s. 2019

Nakladatel

Lexical Computing CZ s.r.o.

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Kód RIV

RIV/00216224:14330/19:00111209

Organizační jednotka

Fakulta informatiky

ISSN

EID Scopus

2-s2.0-85075352676

Klíčová slova anglicky

GDEX; SkELL; learner corpus; Estonian; Russian

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 8. 5. 2020 09:25, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

The paper provides an analysis of the quality and presentation of authentic corpus sentences from Sketch Engine for Language Learning (SkELL) corpora (Baisa & Suchomel 2014), based on the example of Sonaveeb (Wordweb), a new language portal being developed in the Institute of the Estonian Language. Currently Sonaveeb contains a total of 150,000 Estonian headwords; about 70,000 of them have Russian equivalents. Authentic corpus sentences are displayed for both languages. In some cases (e.g. terms, derived forms, compounds and multi-word expressions), corpus sentences are the only source of usage examples that are available on the portal. We describe the parameters of Good Dictionary Examples (GDEX) (Kilgarriff et al., 2008) configurations for Estonian and for Russian used for the compilation of etSkELL 2018 and ruSkELL 1.6 corpora, give an overview of an evaluation of the GDEX configuration for Estonian, and outline the requirements for the user-friendly presentation of SkELL corpora as a part of the language portal.

Návaznosti

LM2015071, projekt VaV
Název: Jazyková výzkumná infrastruktura v České republice (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum