SOJKA, Petr. Slovenské vzory dělení: čas pro změnu? Zpravodaj CSTUG. Brno: CSTUG, 2004, roč. 14, 3-4, s. 183-189. ISSN 1211-6661. Dostupné z: https://dx.doi.org/10.5300/2004-3-4/183.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Slovenské vzory dělení: čas pro změnu?
Název anglicky Slovak hyphenation patterns: a time for change?
Autoři SOJKA, Petr (203 Česká republika, garant, domácí).
Vydání Zpravodaj CSTUG, Brno, CSTUG, 2004, 1211-6661.
Další údaje
Originální jazyk čeština
Typ výsledku Článek v odborném periodiku
Obor 20200 2.2 Electrical engineering, Electronic engineering, Information engineering
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
WWW web časopisu s PDF DOI
Kód RIV RIV/00216224:14330/04:00010850
Organizační jednotka Fakulta informatiky
Doi http://dx.doi.org/10.5300/2004-3-4/183
Klíčová slova česky dělení slov; vzory dělení; patgen; dělení na slabiky; Unicode; TeX; slabičné dělení; čeština; slovenština
Klíčová slova anglicky hyphenation; hyphenation patterns; patgen; syllabification; Unicode; TeX; syllabic hyphenation; Czech; Slovak
Štítky dělení slov, elektronické publikování
Příznaky Recenzováno
Změnil Změnil: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Změněno: 7. 3. 2020 15:00.
Anotace
Dělení slov neboli algoritmická segmentace velké množiny řetězců nějakého jazyka je problém častější než by se na první pohled zdálo. Pro volně šiřitelné slovenské dělení slov zatím existuje pouze řešení vycházející z~definice slabiky ve slovenštině, bez rozsáhlého pokrytí výjimek. Z~více než miliónu shromážděných a rozdělených slov se podařilo vygenerovat programem PatGen nové volně šiřitelné vzory, které se s~nepravidelnostmi jazyka vyrovnávají lépe než dosud dostupné řešení. Výsledek je použitelný nejen v~distribucích TeXu, ale i v~dalších systémech jako například OpenOffice.org. Použité a diskutované techniky bootstrappingu, stratifikace a generování vzorů jsou použitelné při řešení širokého spektra dalších segmentačních aplikací.
Anotace anglicky
Hyphenation, or more generally algorithmic segmentation of big wordlist of some language is frequent problem. For Slovak language, there is only version based on the syllable principle available, without coverage of many exceptions. From a wordlist of million collected words we have generated by the PatGen program new freely available patterns that fill this gap. The result is directly usable not only in TeX distributions, but in other systems as well (OpenOffice.org). The techniques of bootstrapping, stratification and patterns generation are handy for solution of plenty of various segmentation tasks.
Návaznosti
MSM 143300003, záměrNázev: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Interakce člověka s počítačem, dialogové systémy a asistivní technologie
VytisknoutZobrazeno: 26. 4. 2024 09:59