R 2016

Set of Ethiopian Web Corpora

SUCHOMEL, Vít a Pavel RYCHLÝ

Základní údaje

Originální název

Set of Ethiopian Web Corpora

Autoři

SUCHOMEL, Vít (203 Česká republika, domácí) a Pavel RYCHLÝ (203 Česká republika, domácí)

Vydání

2016

Další údaje

Jazyk

angličtina

Typ výsledku

Software

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Kód RIV

RIV/00216224:14330/16:00096851

Organizační jednotka

Fakulta informatiky

Klíčová slova anglicky

text corpora; Ethiopian languages

Technické parametry

Amharic WIC corpus, 200 thousand tokens; amWaC16 Amharic corpus, 20 million tokens; orWaC16 Oromo corpus, 5.1 million tokens; soWaC16 Somali corpus, 80 million tokens; tiWaC16 Tigrinya corpus, 2.5 million tokens.
Změněno: 1. 6. 2017 15:52, doc. Mgr. Pavel Rychlý, Ph.D.

Anotace

V originále

A set of 5 corpora for 4 Ethiopian languages: Amharic, Oromo, Somali and Tigrinya. The Amharic WIC corpus is a reprocessed existing corpus with part of speech annotation. The released version contains cleaning (especially numeric expressions) and unification of two versions with different scripts (Geez and SERA transliteration). The web corpora were built using automatic tools from Internet texts. They contain from 2.5 million words (Tigrinya) to 80 million words (Somali)

Návaznosti

7F14047, projekt VaV
Název: Harvesting big text data for under-resourced languages (Akronym: HaBiT)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Harvesting big text data for under-resourced languages