2014
HindEnCorp – Hindi-English and Hindi-only Corpus for Machine Translation
BOJAR, Ondřej, Vojtěch DIATKA, Pavel RYCHLÝ, Pavel STRAŇÁK, Vít SUCHOMEL et. al.Základní údaje
Originální název
HindEnCorp – Hindi-English and Hindi-only Corpus for Machine Translation
Autoři
BOJAR, Ondřej (203 Česká republika), Vojtěch DIATKA (203 Česká republika), Pavel RYCHLÝ (203 Česká republika, domácí), Pavel STRAŇÁK (203 Česká republika), Vít SUCHOMEL (203 Česká republika, garant, domácí), Aleš TAMCHYNA (203 Česká republika) a Daniel ZEMAN (203 Česká republika)
Vydání
Reykjavik, Iceland, Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), od s. 3550-3555, 6 s. 2014
Nakladatel
European Language Resources Association (ELRA)
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Lucembursko
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
elektronická verze "online"
Odkazy
Kód RIV
RIV/00216224:14330/14:00076251
Organizační jednotka
Fakulta informatiky
ISBN
978-2-9517408-8-4
UT WoS
000355611005028
Klíčová slova anglicky
Machine Translation; SpeechToSpeech Translation; Metadata
Štítky
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 1. 11. 2017 11:02, RNDr. Vít Suchomel, Ph.D.
Anotace
V originále
We present HindEnCorp, a parallel corpus of Hindi and English, and HindMonoCorp, a monolingual corpus of Hindi in their release version 0.5. Both corpora were collected from web sources and preprocessed primarily for the training of statistical machine translation systems. HindEnCorp consists of 274k parallel sentences (3.9 million Hindi and 3.8 million English tokens). HindMonoCorp amounts to 787 million tokens in 44 million sentences. Both the corpora are freely available for non-commercial research and their preliminary release has been used by numerous participants of the WMT 2014 shared translation task.
Návaznosti
LM2010013, projekt VaV |
|