2008
Propria (příjmení na -č) - problém automatické morfologické analýzy
OSOLSOBĚ, KláraZákladní údaje
Originální název
Propria (příjmení na -č) - problém automatické morfologické analýzy
Název česky
Propria (příjmení na -č) - problém automatické morfologické analýzy
Název anglicky
Propria (Family Names on -č) - the Problem of the Automatic Morphological Analysis
Autoři
OSOLSOBĚ, Klára (203 Česká republika, garant)
Vydání
1. vyd. Brno, Jazyk a jeho proměny, od s. 205-216, 12 s. 2008
Nakladatel
Host
Další údaje
Jazyk
čeština
Typ výsledku
Stať ve sborníku
Obor
60200 6.2 Languages and Literature
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Kód RIV
RIV/00216224:14210/08:00027825
Organizační jednotka
Filozofická fakulta
ISBN
978-80-7294-301-2
Klíčová slova anglicky
corpus; proprium; family name; authomatical morphological analysis
Změněno: 24. 3. 2010 10:42, doc. PhDr. Klára Osolsobě, Dr.
V originále
Ačkoliv se rozsáhlé jazykové korpusy od doby vzniku korpusové lingvistiky budují především pro potřeby lexikografie, mohou sloužit a slouží i pro bádání v řadě dalších lingvistických oborů. V tomto příspěvku jsme se snažili demonstrovat, jak mohou korpusy přispět při zpracování lingvistických podkladů použitelných v oblasti NLP. Na příkladu analýzy vlastních jmen (maskulin životných na č) jsme ukázali, na jaká úskalí mohou narazit pokusy vytvořit automatický modul derivace konkrétně českých deverbativ na -č. Výsledkem je rozsáhlý seznam možných případů přegenerovávání, kterých by se mohl automatický nástroj dopustit v případě, že by nepracoval dostatečně s rozdílem apelativum/proprium.
Anglicky
The aim of this paper is to demonstrate how can be used the data mined from corpora for preparation of linguistic basis for NLP (natural language processing) applications. In three representative corpora of literary Czech (SYN2000, SYN2005, SYN2006PUB) the family names (animate masculine on č) were find. The possibility of verbal motivation of them was analyzed thereafter. In this way a list of evantual overgenerations of application of the word formation's formal rules (Osolsobě 2008) was enlarged.
Návaznosti
MSM 143300003, záměr |
|