D 2020

Current Challenges in Web Corpus Building

JAKUBÍČEK, Miloš, Vojtěch KOVÁŘ, Pavel RYCHLÝ a Vít SUCHOMEL

Základní údaje

Originální název

Current Challenges in Web Corpus Building

Autoři

JAKUBÍČEK, Miloš (203 Česká republika, garant, domácí), Vojtěch KOVÁŘ (203 Česká republika, domácí), Pavel RYCHLÝ (203 Česká republika, domácí) a Vít SUCHOMEL (203 Česká republika, domácí)

Vydání

Marseille, France, Proceedings of the 12th Web as Corpus Workshop, od s. 1-4, 4 s. 2020

Nakladatel

European Language Resources Association

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10200 1.2 Computer and information sciences

Stát vydavatele

Francie

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Kód RIV

RIV/00216224:14330/20:00114153

Organizační jednotka

Fakulta informatiky

ISBN

979-10-95546-68-9

Klíčová slova anglicky

Web corpora; corpus building

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 28. 5. 2020 13:06, RNDr. Vít Suchomel, Ph.D.

Anotace

V originále

In this paper we discuss some of the current challenges in web corpus building that we faced in the recent years when expanding the corpora in Sketch Engine. The purpose of the paper is to provide an overview and raise discussion on possible solutions, rather than bringing ready solutions to the readers. For every issue we try to assess its severity and briefly discuss possible mitigation options.

Návaznosti

GA18-23891S, projekt VaV
Název: Hyperintensionální usuzování nad texty přirozeného jazyka
Investor: Grantová agentura ČR, Hyperintensionální usuzování nad texty přirozeného jazyka
LM2018101, projekt VaV
Název: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy