D 2016

Between Comparable and Parallel: English-Czech Corpus from Wikipedia

ŠTROMAJEROVÁ, Adéla, Vít BAISA a Marek BLAHUŠ

Základní údaje

Originální název

Between Comparable and Parallel: English-Czech Corpus from Wikipedia

Autoři

ŠTROMAJEROVÁ, Adéla (203 Česká republika, garant, domácí), Vít BAISA (203 Česká republika, domácí) a Marek BLAHUŠ (203 Česká republika, domácí)

Vydání

Brno, RASLAN 2016 Recent Advances in Slavonic Natural Language Processing, od s. 3-8, 6 s. 2016

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Kód RIV

RIV/00216224:14330/16:00091974

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-1095-2

ISSN

UT WoS

000466886400001

Klíčová slova česky

paralelní korpus; srovnatelný korpus; Wikipedie

Klíčová slova anglicky

parallel corpora; comparable corpora; Wikipedia

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 27. 5. 2021 09:10, Mgr. et Mgr. Vít Baisa, Ph.D.

Anotace

V originále

We describe the process of creating a parallel corpus from Czech and English Wikipedias using methods which are language independent. The corpus consists of Czech and English Wikipedia articles, the Czech ones being translations of the English ones, is aligned on sentence level and is accessible in Sketch Engine corpus manager.

Návaznosti

LM2015071, projekt VaV
Název: Jazyková výzkumná infrastruktura v České republice (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum
MUNI/A/0863/2015, interní kód MU
Název: Čeština v jednotě synchronie a diachronie - 2016
Investor: Masarykova univerzita, Čeština v jednotě synchronie a diachronie - 2016, DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty