2001
Generování vzorů dělení slov v UNICODE
ANTOŠ, David a Petr SOJKAZákladní údaje
Originální název
Generování vzorů dělení slov v UNICODE
Název anglicky
Hyphenation Pattern Generation for UNICODE
Autoři
ANTOŠ, David (203 Česká republika) a Petr SOJKA (203 Česká republika, garant)
Vydání
Brno, Sborník druhého semináře o Linuxu a TeXu, SLT 2001, s. 23-32, 2001
Nakladatel
Konvoj
Další údaje
Jazyk
čeština
Typ výsledku
Stať ve sborníku
Obor
20200 2.2 Electrical engineering, Electronic engineering, Information engineering
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Odkazy
Kód RIV
RIV/00216224:14330/01:00002849
Organizační jednotka
Fakulta informatiky
ISBN
80-7302-009-2
Klíčová slova anglicky
patterns;UNICODE;finite automata;natural language processing;language engineering
Změněno: 18. 10. 2006 22:32, doc. RNDr. Petr Sojka, Ph.D.
V originále
Článek popisuje techniku vzorů jako prostředek pro získávání informace z~rozsáhlých dat a zpětné rozpoznávání. Typickou aplikací této techniky je dělení slov. Dosud chybí generátor vzorů dělení pro systém $\Omega$ (pro UNICODE) a rozšíření programu PATGEN, omezeného osmibitovým ASCII, není únosné. Proto vyvíjíme knihovnu PATLIB pro obecnou manipulaci se vzory a na ní postavíme generátor vzorů dělení slov v~UNICODE. Popíšeme architekturu připravovaného systému a dále méně známou datovou strukturu dynamic packed trie, kterou lze výhodně použít pro efektivní ukládání konečných jazyků s výstupy. Vzory lze použít i pro rozpoznávání hranic složených slov, proto zmíníme návrhy na rozšíření následníků TeXu o klasifikované dělení s~více typy dělících bodů a o automatické potlačování ligatur na švech složených~slov.
Anglicky
Pattern generation technique is described, together with design of software library for pattern handling PATLIB.
Návaznosti
MSM 143300003, záměr |
| ||
VS97028, projekt VaV |
|