2020
Towards New Czechoslovak Hyphenation Patterns
SOJKA, Petr a Ondřej SOJKAZákladní údaje
Originální název
Towards New Czechoslovak Hyphenation Patterns
Autoři
Vydání
Zpravodaj CSTUG, Brno, CSTUG, 2020, 1211-6661
Další údaje
Jazyk
angličtina
Typ výsledku
Článek v odborném periodiku
Obor
20206 Computer hardware and architecture
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Odkazy
Označené pro přenos do RIV
Ano
Kód RIV
RIV/00216224:14330/20:00132299
Organizační jednotka
Fakulta informatiky
Klíčová slova česky
dělení slov; generování vzorů dělení; československé vozry dělení; slovní databáze; patgen; vícejazyčná sazba; dělení na slabiky; Unicode; TeX; slabičné dělení; čeština; slovenština; komprese
Klíčová slova anglicky
hyphenation; patttern generation; Czechoslovak hyphenation patterns; word list database; patgen; multilingual typesetting; Unicode; TeX; syllable segmentation; syllabification; Czech; Slovak; compression
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 4. 2. 2025 18:15, doc. RNDr. Petr Sojka, Ph.D.
Anotace
V originále
Space- and time-effective segmentation and hyphenation of natural languages stay at the core of every document preparation system, web browser, or mobile rendering system. Recently, the unreasonable effectiveness of pattern generation has been shown – it is possible to use hyphenation patterns to solve the dictionary problem for a single language without compromise. In this article, we will show how we applied the marvelous effectiveness of patgen for the generation of the new Czechoslovak hyphenation patterns that cover two languages. We show that the development of more universal hyphenation patterns is feasible, allows for significant quality improvements and space savings. We evaluate the new approach and the new Czechoslovak hyphenation patterns.