D 2004

Slovenské vzory dělení: čas pro změnu?

SOJKA, Petr

Základní údaje

Originální název

Slovenské vzory dělení: čas pro změnu?

Název česky

Slovenské vzory dělení: čas pro změnu?

Název anglicky

Slovak Hyphenation: a Time for Change?

Autoři

SOJKA, Petr (203 Česká republika, garant)

Vydání

první. Brno, SLT 2004, sborník 4. ročníku semináře o Linuxu a TeXu, od s. 67-72, 6 s. 2004

Nakladatel

Konvoj

Další údaje

Jazyk

čeština

Typ výsledku

Stať ve sborníku

Obor

20200 2.2 Electrical engineering, Electronic engineering, Information engineering

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14330/04:00010851

Organizační jednotka

Fakulta informatiky

ISBN

80-7302-068-8

Klíčová slova česky

slovenské dělení slov; elektronické publikování; segmentace; stratifikace; bootstrapping

Klíčová slova anglicky

Slovak hyphenation; electronic publishing; segmentation; stratification; bootstrapping

Příznaky

Recenzováno
Změněno: 26. 5. 2009 22:04, doc. RNDr. Petr Sojka, Ph.D.

Anotace

V originále

Dělení slov neboli algoritmická segmentace velké množiny řetězců nějakého jazyka je problém častější než by se na první pohled zdálo. Pro volně šiřitelné slovenské dělení slov zatím existuje pouze řešení vycházející z~definice slabiky ve slovenštině, bez rozsáhlého pokrytí výjimek. Z~více než miliónu shromážděných a rozdělených slov se podařilo vygenerovat programem PatGen nové volně šiřitelné vzory, které se s~nepravidelnostmi jazyka vyrovnávají lépe než dosud dostupné řešení. Výsledek je použitelný nejen v~distribucích TeXu, ale i v~dalších systémech jako například OpenOffice.org. Použité a diskutované techniky bootstrappingu, stratifikace a generování vzorů jsou použitelné při řešení širokého spektra dalších segmentačních aplikací.

Anglicky

Hyphenation, or more generally algorithmic segmentation of big wordlist of some language is frequent problem. For Slovak language, there is only version based on the syllable principle available, without coverage of many exceptions. From a wordlist of million collected words we have generated by the PatGen program new freely available patterns that fill this gap. The result is directly usable not only in TeX distributions, but in other systems as well (OpenOffice.org). The techniques of bootstrapping, stratification and patterns generation are handy for solution of plenty of various segmentation tasks.

Návaznosti

MSM 143300003, záměr
Název: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Interakce člověka s počítačem, dialogové systémy a asistivní technologie