SOJKA, Petr a Ondřej SOJKA. New Czechoslovak Hyphenation Patterns, Word Lists, and Workflow. TUGboat: The Communications of the TeX Users Group. San Francisco, USA: TUG, 2021, roč. 42, č. 2, s. 152-158. ISSN 0896-3207. Dostupné z: https://dx.doi.org/10.47397/tb/42-2/tb131sojka-czech.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název New Czechoslovak Hyphenation Patterns, Word Lists, and Workflow
Autoři SOJKA, Petr (203 Česká republika, garant, domácí) a Ondřej SOJKA (203 Česká republika, domácí).
Vydání TUGboat: The Communications of the TeX Users Group, San Francisco, USA, TUG, 2021, 0896-3207.
Další údaje
Originální jazyk angličtina
Typ výsledku Článek v odborném periodiku
Obor 20206 Computer hardware and architecture
Stát vydavatele Spojené státy
Utajení není předmětem státního či obchodního tajemství
WWW preprint DOI conference program github repozitář presentation slides
Kód RIV RIV/00216224:14330/21:00122189
Organizační jednotka Fakulta informatiky
Doi http://dx.doi.org/10.47397/tb/42-2/tb131sojka-czech
Klíčová slova česky dělení slov; generování vzorů; databáze slov; vícejazyčná sazba; slabičné algoritmy; patgen; soutěživé vzory
Klíčová slova anglicky hyphenation; pattern generation; word list database; multilingual typesetting; syllabification algorithms; patgen; competing patterns
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Změněno: 5. 9. 2023 11:40.
Anotace
Space- and time-effective segmentation and hyphenation of natural languages stay at the core of every document preparation system, web browser, or mobile rendering system. We use the unreasonable effectiveness of pattern generation with patgen. It is possible to use hyphenation patterns to solve the dictionary problem also for close languages without compromise. In this article, we show how we applied the marvelous effectiveness of patgen for the generation of the new Czechoslovak hyphenation patterns that cover both Czech and Slovak languages. We show that developing universal, up-to-date, high-coverage and high-generalization hyphenation patterns is feasible, generated from semi-automatically prepared word lists from actual language usage. We evaluate the new approach and argue that the new Czechoslovak hyphenation patterns bring significant coverage and generalization improvements, and space savings. We share all the data, word lists, and workflow for reproducibility and usage.
Návaznosti
MUNI/A/1573/2020, interní kód MUNázev: Aplikovaný výzkum: vyhledávání, analýza a vizualizace rozsáhlých dat, zpracování přirozeného jazyka, umělá inteligence pro analýzu biomedicínských obrazů.
Investor: Masarykova univerzita, Aplikovaný výzkum: vyhledávání, analýza a vizualizace rozsáhlých dat, zpracování přirozeného jazyka, umělá inteligence pro analýzu biomedicínských obrazů.
Typ Název Vložil/a Vloženo Práva
New_Czechoslovak_Hyphenation_Patterns__Word_Lists__and_Workflow__TUG_2021__1_.pdf Licence Creative Commons  Verze souboru Sojka, P. 30. 8. 2021

Vlastnosti

Adresa v ISu
https://is.muni.cz/auth/publication/1788557/New_Czechoslovak_Hyphenation_Patterns__Word_Lists__and_Workflow__TUG_2021__1_.pdf
Adresa ze světa
https://is.muni.cz/publication/1788557/New_Czechoslovak_Hyphenation_Patterns__Word_Lists__and_Workflow__TUG_2021__1_.pdf
Adresa do Správce
https://is.muni.cz/auth/publication/1788557/New_Czechoslovak_Hyphenation_Patterns__Word_Lists__and_Workflow__TUG_2021__1_.pdf?info
Ze světa do Správce
https://is.muni.cz/publication/1788557/New_Czechoslovak_Hyphenation_Patterns__Word_Lists__and_Workflow__TUG_2021__1_.pdf?info
Vloženo
Po 30. 8. 2021 11:54, doc. RNDr. Petr Sojka, Ph.D.

Práva

Právo číst
  • kdokoliv v Internetu
  • osoba doc. RNDr. Petr Sojka, Ph.D., učo 2378
  • osoba Ondřej Sojka, učo 454904
Právo vkládat
 
Právo spravovat
  • osoba doc. RNDr. Petr Sojka, Ph.D., učo 2378
  • osoba Ondřej Sojka, učo 454904
Atributy
 

New_Czechoslovak_Hyphenation_Patterns__Word_Lists__and_Workflow__TUG_2021__1_.pdf

Aplikace
Otevřít soubor.
Stáhnout soubor.
Adresa v ISu
https://is.muni.cz/auth/publication/1788557/New_Czechoslovak_Hyphenation_Patterns__Word_Lists__and_Workflow__TUG_2021__1_.pdf
Adresa ze světa
https://is.muni.cz/publication/1788557/New_Czechoslovak_Hyphenation_Patterns__Word_Lists__and_Workflow__TUG_2021__1_.pdf
Typ souboru
PDF (application/pdf)
Velikost
576,1 KB
Hash md5
2dbe453cc4d11fbe1fd6bbaa9c0de06e
Vloženo
Po 30. 8. 2021 11:54

New_Czechoslovak_Hyphenation_Patterns__Word_Lists__and_Workflow__TUG_2021__1__Archive.pdf

Aplikace
Otevřít soubor.
Stáhnout soubor.
Adresa v ISu
https://is.muni.cz/auth/publication/1788557/New_Czechoslovak_Hyphenation_Patterns__Word_Lists__and_Workflow__TUG_2021__1__Archive.pdf
Adresa ze světa
https://is.muni.cz/publication/1788557/New_Czechoslovak_Hyphenation_Patterns__Word_Lists__and_Workflow__TUG_2021__1__Archive.pdf
Typ souboru
PDF/A (application/x-pdf)
Velikost
3,2 MB
Hash md5
2ba5b290d7735689c89020be445c9cbd
Vloženo
Po 30. 8. 2021 12:11

New_Czechoslovak_Hyphenation_Patterns__Word_Lists__and_Workflow__TUG_2021__1_.txt

Aplikace
Otevřít soubor.
Stáhnout soubor.
Adresa v ISu
https://is.muni.cz/auth/publication/1788557/New_Czechoslovak_Hyphenation_Patterns__Word_Lists__and_Workflow__TUG_2021__1_.txt
Adresa ze světa
https://is.muni.cz/publication/1788557/New_Czechoslovak_Hyphenation_Patterns__Word_Lists__and_Workflow__TUG_2021__1_.txt
Typ souboru
holý text (text/plain)
Velikost
26,5 KB
Hash md5
411b4e355bc684c10f752557a9799757
Vloženo
Po 30. 8. 2021 12:14
Vytisknout
Nahlásit neoprávněně vložený soubor Zobrazeno: 23. 6. 2024 18:45