D 2014

Effective Corpus Virtualization

JAKUBÍČEK, Miloš; Pavel RYCHLÝ a Adam KILGARRIFF

Základní údaje

Originální název

Effective Corpus Virtualization

Autoři

JAKUBÍČEK, Miloš; Pavel RYCHLÝ a Adam KILGARRIFF

Vydání

Reykjavik, Challenges in the Management of Large Corpora (CMLC-2), od s. 7-9, 3 s. 2014

Nakladatel

EUROPEAN LANGUAGE RESOURCES ASSOCIATION-ELRA

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Francie

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Odkazy

URL

Kód RIV

RIV/00216224:14330/14:00094187

Organizační jednotka

Fakulta informatiky

ISBN

978-2-9517408-8-4

UT WoS

000355611000045

Klíčová slova anglicky

corpus; corpus linguistics; virtualization; indexing; database

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 11. 5. 2017 19:47, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

In this paper we describe an implementation of corpus virtualization within the Manatee corpus management system. Under corpus virtualization we understand logical manipulation with corpora or their parts grouping them into new (virtual) corpora. We discuss the motivation for such a setup in detail and show space and time efficiency of this approach evaluated on a 11 billion word corpus of Spanish.

Návaznosti

LM2010013, projekt VaV
Název: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum
VF20102014003, projekt VaV
Název: Analýza přirozeného jazyka v prostředí internetu (Akronym: APJI)
Investor: Ministerstvo vnitra ČR, Analýza přirozeného jazyka v prostředí internetu
Zobrazeno: 29. 11. 2025 01:43