Z 2010

DESAM – morfologicky označkovaný korpus českých textů

RYCHLÝ, Pavel, Pavel ŠMERK a Karel PALA

Základní údaje

Originální název

DESAM – morfologicky označkovaný korpus českých textů

Název anglicky

DESAM - tagged corpus of Czech texts

Autoři

RYCHLÝ, Pavel (203 Česká republika, garant, domácí), Pavel ŠMERK (203 Česká republika, domácí) a Karel PALA (203 Česká republika, domácí)

Vydání

2010

Další údaje

Jazyk

čeština

Typ výsledku

Poloprovoz, ověřená technologie, odrůda, plemeno

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Kód RIV

RIV/00216224:14330/10:00047870

Organizační jednotka

Fakulta informatiky

Klíčová slova česky

morfologie; gramatické značky; lemmatizace; značkování

Klíčová slova anglicky

morphology; annotation; Czech; lemmatization; grammatical tags

Technické parametry

morfologicky označkovaný korpus českých textů, smlouva se Seznam.cz (IČ 26168685) ze dne 25.11.2010
Změněno: 29. 4. 2011 10:08, doc. Mgr. Pavel Rychlý, Ph.D.

Anotace

V originále

DESAM je morfologicky označkovaný korpus českých textů v rozsahu 2 689 dokumentů (tj. 48 687 vět, 1 042 446 tokenů)

Anglicky

DESAM is a morphologically tagged corpus of czech texts. It consists of 2689 documents, i.e. 48687 sentences and 1042446 tokens.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
2C06009, projekt VaV
Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce