D 2006

WebBootCat: a Web Tool for Instant Corpora

BARONI, Marco, Adam KILGARRIFF, Jan POMIKÁLEK and Pavel RYCHLÝ

Basic information

Original name

WebBootCat: a Web Tool for Instant Corpora

Name in Czech

WebBootCat: webový nástroj pro instantní korpusy

Authors

BARONI, Marco (380 Italy), Adam KILGARRIFF (826 United Kingdom of Great Britain and Northern Ireland), Jan POMIKÁLEK (203 Czech Republic) and Pavel RYCHLÝ (203 Czech Republic, guarantor)

Edition

1. vyd. Italy, Proceeding of the EuraLex Conference 2006, p. 123-132, 9 pp. 2006

Publisher

Edizioni dell'Orso s.r.l.

Other information

Language

English

Type of outcome

Stať ve sborníku

Field of Study

10201 Computer sciences, information science, bioinformatics

Country of publisher

Italy

Confidentiality degree

není předmětem státního či obchodního tajemství

RIV identification code

RIV/00216224:14330/06:00015517

Organization unit

Faculty of Informatics

ISBN

88-7694-918-6

Keywords in English

text corpora; web application; automatic text corpus creation

Tags

International impact, Reviewed
Změněno: 15/6/2007 12:15, RNDr. Jan Pomikálek, Ph.D.

Abstract

V originále

We present a web service for quickly producing corpora for specialist areas, in any of a range of languages, from the web. The underlying BootCaT tools have already been extensively used: here, we present a version which is easy for non-technical people to use as all they need do is fill in a web form. The corpus, once produced, can be either downloaded or loaded into the Sketch Engine, a corpus query tool, for further exploration. Reference corpora are used to identify the key terms in the specialist domain. The service is freely available to all on a trial basis.

In Czech

WebBootCat je aplikace pro rychlou tvorbu tématicky zaměřených textových korpusů z webu. Program vychází z projektu BootCaT, který byl ke stejným účelům již hojně využíván. Naše verze je však orientována na technicky méně zdatné uživatele a poskytuje jednoduché webové rozhraní. Vytvořené korpusy mohou být uloženy na lokální disk nebo používány online v korpusovém manažeru Sketch Engine. Systém rovněž umožňuje identifikaci klíčových slov v rámci domény vytvořeného korpusu. K tomuto účelu jsou využívány referenční korpusy.

Links

LC536, research and development project
Name: Centrum komputační lingvistiky
Investor: Ministry of Education, Youth and Sports of the CR, Centrum komputační lingvistiky
1ET100300419, research and development project
Name: Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu
Investor: Academy of Sciences of the Czech Republic, Intelligent Models, Algorithms, Methods and Tools for the Semantic Web (realization)