J 2020

Towards New Czechoslovak Hyphenation Patterns

SOJKA, Petr a Ondřej SOJKA

Základní údaje

Originální název

Towards New Czechoslovak Hyphenation Patterns

Vydání

Zpravodaj CSTUG, Brno, CSTUG, 2020, 1211-6661

Další údaje

Jazyk

angličtina

Typ výsledku

Článek v odborném periodiku

Obor

20206 Computer hardware and architecture

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Označené pro přenos do RIV

Ano

Kód RIV

RIV/00216224:14330/20:00132299

Organizační jednotka

Fakulta informatiky

Klíčová slova česky

dělení slov; generování vzorů dělení; československé vozry dělení; slovní databáze; patgen; vícejazyčná sazba; dělení na slabiky; Unicode; TeX; slabičné dělení; čeština; slovenština; komprese

Klíčová slova anglicky

hyphenation; patttern generation; Czechoslovak hyphenation patterns; word list database; patgen; multilingual typesetting; Unicode; TeX; syllable segmentation; syllabification; Czech; Slovak; compression

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 4. 2. 2025 18:15, doc. RNDr. Petr Sojka, Ph.D.

Anotace

V originále

Space- and time-effective segmentation and hyphenation of natural languages stay at the core of every document preparation system, web browser, or mobile rendering system. Recently, the unreasonable effectiveness of pattern generation has been shown – it is possible to use hyphenation patterns to solve the dictionary problem for a single language without compromise. In this article, we will show how we applied the marvelous effectiveness of patgen for the generation of the new Czechoslovak hyphenation patterns that cover two languages. We show that the development of more universal hyphenation patterns is feasible, allows for significant quality improvements and space savings. We evaluate the new approach and the new Czechoslovak hyphenation patterns.