A Roadmap for Universal Syllabic Segmentation
SOJKA, Ondřej, Petr SOJKA a Jakub MÁCA. A Roadmap for Universal Syllabic Segmentation. Zpravodaj CSTUG. Brno: CSTUG, 2023, roč. 33, 3-4, s. 125-138. ISSN 1211-6661. Dostupné z: https://dx.doi.org/10.5300/2023-3-4/125. |
Další formáty:
BibTeX
LaTeX
RIS
|
Základní údaje | |
---|---|
Originální název | A Roadmap for Universal Syllabic Segmentation |
Název anglicky | A Roadmap for Universal Syllabic Segmentation |
Autoři | SOJKA, Ondřej (203 Česká republika, garant, domácí), Petr SOJKA (203 Česká republika, domácí) a Jakub MÁCA (203 Česká republika, domácí). |
Vydání | Zpravodaj CSTUG, Brno, CSTUG, 2023, 1211-6661. |
Další údaje | |
---|---|
Originální jazyk | čeština |
Typ výsledku | Článek v odborném periodiku |
Obor | 10201 Computer sciences, information science, bioinformatics |
Stát vydavatele | Česká republika |
Utajení | není předmětem státního či obchodního tajemství |
WWW | DOI |
Kód RIV | RIV/00216224:14330/23:00132504 |
Organizační jednotka | Fakulta informatiky |
Doi | http://dx.doi.org/10.5300/2023-3-4/125 |
Klíčová slova česky | slabičnost; slabika; dělení slov; příprava univerzálních vzorů |
Klíčová slova anglicky | syllabification; hyphenation; universal syllabic patterns preparation |
Příznaky | Recenzováno |
Změnil | Změnil: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Změněno: 12. 12. 2023 17:56. |
Anotace |
---|
Space- and time-effective segmentation (word hyphenation) of natural languages remains at the core of every document rendering system, be it TeX, web browser, or mobile operating system. In most languages, segmentation mimicking syllabic pronunciation is a pragmatic preference today. As language switching is often not marked in rendered texts, the typesetting engine needs universal syllabic segmentation. In this article, we show the feasibility of this idea by offering a prototype solution to two main problems: For A), we have applied it to generating universal syllabic patterns from wordlists of nine syllabic, as opposed to etymology-based, languages (namely, Czech, Slovak, Georgian, Greek, Polish, Russian, Turkish, Turkmen, and Ukrainian). With the data from these nine languages, we show that: |
Anotace anglicky |
---|
Space- and time-effective segmentation (word hyphenation) of natural languages remains at the core of every document rendering system, be it TeX, web browser, or mobile operating system. In most languages, segmentation mimicking syllabic pronunciation is a pragmatic preference today. As language switching is often not marked in rendered texts, the typesetting engine needs universal syllabic segmentation. In this article, we show the feasibility of this idea by offering a prototype solution to two main problems: For A), we have applied it to generating universal syllabic patterns from wordlists of nine syllabic, as opposed to etymology-based, languages (namely, Czech, Slovak, Georgian, Greek, Polish, Russian, Turkish, Turkmen, and Ukrainian). With the data from these nine languages, we show that: |
Návaznosti | |
---|---|
MUNI/A/1339/2022, interní kód MU | Název: Rozvoj technik pro zpracování dat pro podporu vyhledávání, analýz a vizualizací rozsáhlých datových souborů s využitím umělé inteligence |
Investor: Masarykova univerzita, Rozvoj technik pro zpracování dat pro podporu vyhledávání, analýz a vizualizací rozsáhlých datových souborů s využitím umělé inteligence |