D 2008

Power Networks Dialogs - Enhancing Domain-Specific Text Processing Techniques and Resources

KOVÁŘ, Vojtěch, Aleš HORÁK and Miloš JAKUBÍČEK

Basic information

Original name

Power Networks Dialogs - Enhancing Domain-Specific Text Processing Techniques and Resources

Name in Czech

Dialogy o elektrorozvodných sítích - rozšíření doménově specifických zdrojů a technik zpracování textu

Authors

KOVÁŘ, Vojtěch (203 Czech Republic), Aleš HORÁK (203 Czech Republic, guarantor) and Miloš JAKUBÍČEK (203 Czech Republic)

Edition

Ostrava, Proceedings of ELNET 2008, p. 72-80, 9 pp. 2008

Publisher

Faculty of Electrical Engineering and Computer Science, VŠB - Technical University of Ostrava

Other information

Language

English

Type of outcome

Stať ve sborníku

Field of Study

10201 Computer sciences, information science, bioinformatics

Country of publisher

Czech Republic

Confidentiality degree

není předmětem státního či obchodního tajemství

RIV identification code

RIV/00216224:14330/08:00024367

Organization unit

Faculty of Informatics

ISBN

978-80-248-1875-7

Keywords in English

electrical power networks;czech domain-specific resources;syntax analysis;text corpora

Tags

International impact, Reviewed
Změněno: 20/10/2010 13:06, RNDr. Miloš Jakubíček, Ph.D.

Abstract

V originále

In this paper, we describe the process of development of the analytical approaches adapted for the work with technical texts specialized at the domain of electrical power networks (EPN) topics. The process includes improving the quality of the EPN resources. The new data represent one of the largest domain specific corpora containing more than 5 million of text tokens. We show the details of building a new the large domain-specific corpus, its analysis and further processing such as filtering, morphological and syntactical analysis and phrase detection and present, how they help to improve the dialog system.

In Czech

Článek popisuje rozvoj analytických přístupů pro práci s doménově specifickými daty (doména elektrorozvodných sítí). Představuje nově vytvořený doménově specifický korpus o velikosti 5 milionů slov a zabývá se jeho dalším jazykovým zpracováním na úrovni morfologické a syntaktické.

Links

1ET100300414, research and development project
Name: Inteligentní metody pro zvýšení spolehlivosti elektrických sítí
Investor: Academy of Sciences of the Czech Republic, Intelligentmethods for incresing of reliability of electrical networks
1ET100300419, research and development project
Name: Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu
Investor: Academy of Sciences of the Czech Republic, Intelligent Models, Algorithms, Methods and Tools for the Semantic Web (realization)