SOJKA, Petr. Slovenské vzory dělení: čas pro změnu? (Slovak Hyphenation: a Time for Change?). In SLT 2004, sborník 4. ročníku semináře o Linuxu a TeXu. první. Brno: Konvoj, 2004, p. 67-72. ISBN 80-7302-068-8.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name Slovenské vzory dělení: čas pro změnu?
Name in Czech Slovenské vzory dělení: čas pro změnu?
Name (in English) Slovak Hyphenation: a Time for Change?
Authors SOJKA, Petr (203 Czech Republic, guarantor).
Edition první. Brno, SLT 2004, sborník 4. ročníku semináře o Linuxu a TeXu, p. 67-72, 6 pp. 2004.
Publisher Konvoj
Other information
Original language Czech
Type of outcome Proceedings paper
Field of Study 20200 2.2 Electrical engineering, Electronic engineering, Information engineering
Country of publisher Czech Republic
Confidentiality degree is not subject to a state or trade secret
WWW stránka publikací autora Stránka semináře
RIV identification code RIV/00216224:14330/04:00010851
Organization unit Faculty of Informatics
ISBN 80-7302-068-8
Keywords (in Czech) slovenské dělení slov; elektronické publikování; segmentace; stratifikace; bootstrapping
Keywords in English Slovak hyphenation; electronic publishing; segmentation; stratification; bootstrapping
Tags bootstrapping, electronic publishing, segmentation, Slovak hyphenation, stratification
Tags Reviewed
Changed by Changed by: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Changed: 26/5/2009 22:04.
Abstract
Dělení slov neboli algoritmická segmentace velké množiny řetězců nějakého jazyka je problém častější než by se na první pohled zdálo. Pro volně šiřitelné slovenské dělení slov zatím existuje pouze řešení vycházející z~definice slabiky ve slovenštině, bez rozsáhlého pokrytí výjimek. Z~více než miliónu shromážděných a rozdělených slov se podařilo vygenerovat programem PatGen nové volně šiřitelné vzory, které se s~nepravidelnostmi jazyka vyrovnávají lépe než dosud dostupné řešení. Výsledek je použitelný nejen v~distribucích TeXu, ale i v~dalších systémech jako například OpenOffice.org. Použité a diskutované techniky bootstrappingu, stratifikace a generování vzorů jsou použitelné při řešení širokého spektra dalších segmentačních aplikací.
Abstract (in English)
Hyphenation, or more generally algorithmic segmentation of big wordlist of some language is frequent problem. For Slovak language, there is only version based on the syllable principle available, without coverage of many exceptions. From a wordlist of million collected words we have generated by the PatGen program new freely available patterns that fill this gap. The result is directly usable not only in TeX distributions, but in other systems as well (OpenOffice.org). The techniques of bootstrapping, stratification and patterns generation are handy for solution of plenty of various segmentation tasks.
Links
MSM 143300003, plan (intention)Name: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministry of Education, Youth and Sports of the CR, Human-computer interaction, dialog systems and assistive technologies
PrintDisplayed: 11/5/2024 00:20