D 2008

Power Networks Dialogs - Enhancing Domain-Specific Text Processing Techniques and Resources

KOVÁŘ, Vojtěch, Aleš HORÁK a Miloš JAKUBÍČEK

Základní údaje

Originální název

Power Networks Dialogs - Enhancing Domain-Specific Text Processing Techniques and Resources

Název česky

Dialogy o elektrorozvodných sítích - rozšíření doménově specifických zdrojů a technik zpracování textu

Autoři

KOVÁŘ, Vojtěch (203 Česká republika), Aleš HORÁK (203 Česká republika, garant) a Miloš JAKUBÍČEK (203 Česká republika)

Vydání

Ostrava, Proceedings of ELNET 2008, od s. 72-80, 9 s. 2008

Nakladatel

Faculty of Electrical Engineering and Computer Science, VŠB - Technical University of Ostrava

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14330/08:00024367

Organizační jednotka

Fakulta informatiky

ISBN

978-80-248-1875-7

Klíčová slova anglicky

electrical power networks;czech domain-specific resources;syntax analysis;text corpora

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 20. 10. 2010 13:06, RNDr. Miloš Jakubíček, Ph.D.

Anotace

V originále

In this paper, we describe the process of development of the analytical approaches adapted for the work with technical texts specialized at the domain of electrical power networks (EPN) topics. The process includes improving the quality of the EPN resources. The new data represent one of the largest domain specific corpora containing more than 5 million of text tokens. We show the details of building a new the large domain-specific corpus, its analysis and further processing such as filtering, morphological and syntactical analysis and phrase detection and present, how they help to improve the dialog system.

Česky

Článek popisuje rozvoj analytických přístupů pro práci s doménově specifickými daty (doména elektrorozvodných sítí). Představuje nově vytvořený doménově specifický korpus o velikosti 5 milionů slov a zabývá se jeho dalším jazykovým zpracováním na úrovni morfologické a syntaktické.

Návaznosti

1ET100300414, projekt VaV
Název: Inteligentní metody pro zvýšení spolehlivosti elektrických sítí
Investor: Akademie věd ČR, Inteligentní metody pro zvýšení spolehlivosti elektrických sítí
1ET100300419, projekt VaV
Název: Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu
Investor: Akademie věd ČR, Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu