D 2006

WebBootCat: a Web Tool for Instant Corpora

BARONI, Marco, Adam KILGARRIFF, Jan POMIKÁLEK a Pavel RYCHLÝ

Základní údaje

Originální název

WebBootCat: a Web Tool for Instant Corpora

Název česky

WebBootCat: webový nástroj pro instantní korpusy

Autoři

BARONI, Marco (380 Itálie), Adam KILGARRIFF (826 Velká Británie a Severní Irsko), Jan POMIKÁLEK (203 Česká republika) a Pavel RYCHLÝ (203 Česká republika, garant)

Vydání

1. vyd. Italy, Proceeding of the EuraLex Conference 2006, od s. 123-132, 9 s. 2006

Nakladatel

Edizioni dell'Orso s.r.l.

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Itálie

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14330/06:00015517

Organizační jednotka

Fakulta informatiky

ISBN

88-7694-918-6

Klíčová slova anglicky

text corpora; web application; automatic text corpus creation

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 15. 6. 2007 12:15, RNDr. Jan Pomikálek, Ph.D.

Anotace

V originále

We present a web service for quickly producing corpora for specialist areas, in any of a range of languages, from the web. The underlying BootCaT tools have already been extensively used: here, we present a version which is easy for non-technical people to use as all they need do is fill in a web form. The corpus, once produced, can be either downloaded or loaded into the Sketch Engine, a corpus query tool, for further exploration. Reference corpora are used to identify the key terms in the specialist domain. The service is freely available to all on a trial basis.

Česky

WebBootCat je aplikace pro rychlou tvorbu tématicky zaměřených textových korpusů z webu. Program vychází z projektu BootCaT, který byl ke stejným účelům již hojně využíván. Naše verze je však orientována na technicky méně zdatné uživatele a poskytuje jednoduché webové rozhraní. Vytvořené korpusy mohou být uloženy na lokální disk nebo používány online v korpusovém manažeru Sketch Engine. Systém rovněž umožňuje identifikaci klíčových slov v rámci domény vytvořeného korpusu. K tomuto účelu jsou využívány referenční korpusy.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
1ET100300419, projekt VaV
Název: Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu
Investor: Akademie věd ČR, Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu