D 2008

Morfologické značkování mluvených korpusů, zkušenosti a otevřené otázky

HLAVÁČKOVÁ, Dana and Klára OSOLSOBĚ

Basic information

Original name

Morfologické značkování mluvených korpusů, zkušenosti a otevřené otázky

Name in Czech

Morfologické značkování mluvených korpusů, zkušenosti a otevřené otázky

Name (in English)

Tagging of Spoken Corpora

Authors

HLAVÁČKOVÁ, Dana (203 Czech Republic, guarantor, belonging to the institution) and Klára OSOLSOBĚ (203 Czech Republic, belonging to the institution)
Kopřivová, Marie, Waclawičová, Martina.

Edition

1. vyd. Praha, Čeština v mluveném korpusu, p. 105-114, 10 pp. 2008

Publisher

Nakladatelství Lidové noviny/ Ústav Českého národního korpusu

Other information

Language

Czech

Type of outcome

Stať ve sborníku

Field of Study

60200 6.2 Languages and Literature

Country of publisher

Czech Republic

Confidentiality degree

není předmětem státního či obchodního tajemství

RIV identification code

RIV/00216224:14330/08:00024286

Organization unit

Faculty of Informatics

ISBN

978-80-7106-982-9

Keywords in English

corpus; spoken corpora; tagging

Tags

International impact
Změněno: 19/11/2011 18:56, Mgr. Dana Hlaváčková, Ph.D.

Abstract

V originále

Cílem příspěvku je: a) Stručně shrnout zkušenosti získané při úpravách nástrojů primárně určených pro automatickou morfologickou analýzu psané češtiny s cílem rozšířit jejich použitelnost pro anotace mluvených korpusů. b) Představit nástroj upravenou verzi automatického morfologického analyzátoru ajka použitou pro automatické značkování mluvených korpusů. c) Podělit se o konkrétní zkušenosti s automatickou morfologickou analýzou a následnou ruční disambiguací automaticky označkovaných částí Brněnského mluveného korpusu (BMK) a Korpusu soukromé korespondence (KSK) oba vytvořeny v Ústavu českého jazyka FF MU. d) Na základě výše uvedených zkušeností zhodnotit klady a zápory, meze a možnosti automatické morfologické analýzy mluvených textů.

In English

The aim of this paper is a) to summarize the conditions of tagging of spoken corpora, b) to project morphological tagger ajka, version for spoken czech corpora, c) to communicate the experienc of tagging and manual disambiguation of two corpora (bmk Corpus of spoken Czech in Brno and ksk Corpus of private corespondence) and d) to sum up pros and cones of authomatical morphological analysis of spoken corpora.

Links

1ET200610406, research and development project
Name: Jazyková poradna na internetu
Investor: Academy of Sciences of the Czech Republic, Internet Language Consulting Service