Detailed Information on Publication Record
2008
Power Networks Dialogs - Enhancing Domain-Specific Text Processing Techniques and Resources
KOVÁŘ, Vojtěch, Aleš HORÁK and Miloš JAKUBÍČEKBasic information
Original name
Power Networks Dialogs - Enhancing Domain-Specific Text Processing Techniques and Resources
Name in Czech
Dialogy o elektrorozvodných sítích - rozšíření doménově specifických zdrojů a technik zpracování textu
Authors
KOVÁŘ, Vojtěch (203 Czech Republic), Aleš HORÁK (203 Czech Republic, guarantor) and Miloš JAKUBÍČEK (203 Czech Republic)
Edition
Ostrava, Proceedings of ELNET 2008, p. 72-80, 9 pp. 2008
Publisher
Faculty of Electrical Engineering and Computer Science, VŠB - Technical University of Ostrava
Other information
Language
English
Type of outcome
Stať ve sborníku
Field of Study
10201 Computer sciences, information science, bioinformatics
Country of publisher
Czech Republic
Confidentiality degree
není předmětem státního či obchodního tajemství
RIV identification code
RIV/00216224:14330/08:00024367
Organization unit
Faculty of Informatics
ISBN
978-80-248-1875-7
Keywords in English
electrical power networks;czech domain-specific resources;syntax analysis;text corpora
Tags
International impact, Reviewed
Změněno: 20/10/2010 13:06, RNDr. Miloš Jakubíček, Ph.D.
V originále
In this paper, we describe the process of development of the analytical approaches adapted for the work with technical texts specialized at the domain of electrical power networks (EPN) topics. The process includes improving the quality of the EPN resources. The new data represent one of the largest domain specific corpora containing more than 5 million of text tokens. We show the details of building a new the large domain-specific corpus, its analysis and further processing such as filtering, morphological and syntactical analysis and phrase detection and present, how they help to improve the dialog system.
In Czech
Článek popisuje rozvoj analytických přístupů pro práci s doménově specifickými daty (doména elektrorozvodných sítí). Představuje nově vytvořený doménově specifický korpus o velikosti 5 milionů slov a zabývá se jeho dalším jazykovým zpracováním na úrovni morfologické a syntaktické.
Links
1ET100300414, research and development project |
| ||
1ET100300419, research and development project |
|