D 2008

Propria (příjmení na -č) - problém automatické morfologické analýzy

OSOLSOBĚ, Klára

Basic information

Original name

Propria (příjmení na -č) - problém automatické morfologické analýzy

Name in Czech

Propria (příjmení na -č) - problém automatické morfologické analýzy

Name (in English)

Propria (Family Names on -č) - the Problem of the Automatic Morphological Analysis

Authors

OSOLSOBĚ, Klára (203 Czech Republic, guarantor)

Edition

1. vyd. Brno, Jazyk a jeho proměny, p. 205-216, 12 pp. 2008

Publisher

Host

Other information

Language

Czech

Type of outcome

Stať ve sborníku

Field of Study

60200 6.2 Languages and Literature

Country of publisher

Czech Republic

Confidentiality degree

není předmětem státního či obchodního tajemství

RIV identification code

RIV/00216224:14210/08:00027825

Organization unit

Faculty of Arts

ISBN

978-80-7294-301-2

Keywords in English

corpus; proprium; family name; authomatical morphological analysis

Tags

authomatical morphological analysis, corpus, family name, proprium
Změněno: 24/3/2010 10:42, doc. PhDr. Klára Osolsobě, Dr.

Abstract

ORIG EN

V originále

Ačkoliv se rozsáhlé jazykové korpusy od doby vzniku korpusové lingvistiky budují především pro potřeby lexikografie, mohou sloužit a slouží i pro bádání v řadě dalších lingvistických oborů. V tomto příspěvku jsme se snažili demonstrovat, jak mohou korpusy přispět při zpracování lingvistických podkladů použitelných v oblasti NLP. Na příkladu analýzy vlastních jmen (maskulin životných na č) jsme ukázali, na jaká úskalí mohou narazit pokusy vytvořit automatický modul derivace konkrétně českých deverbativ na -č. Výsledkem je rozsáhlý seznam možných případů přegenerovávání, kterých by se mohl automatický nástroj dopustit v případě, že by nepracoval dostatečně s rozdílem apelativum/proprium.

In English

The aim of this paper is to demonstrate how can be used the data mined from corpora for preparation of linguistic basis for NLP (natural language processing) applications. In three representative corpora of literary Czech (SYN2000, SYN2005, SYN2006PUB) the family names (animate masculine on č) were find. The possibility of verbal motivation of them was analyzed thereafter. In this way a list of evantual overgenerations of application of the word formation's formal rules (Osolsobě 2008) was enlarged.

Links

MSM 143300003, plan (intention)
Name: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministry of Education, Youth and Sports of the CR, Human-computer interaction, dialog systems and assistive technologies
Displayed: 3/11/2024 07:39