Detailed Information on Publication Record
2001
Generování vzorů dělení slov v UNICODE
ANTOŠ, David and Petr SOJKABasic information
Original name
Generování vzorů dělení slov v UNICODE
Name (in English)
Hyphenation Pattern Generation for UNICODE
Authors
ANTOŠ, David (203 Czech Republic) and Petr SOJKA (203 Czech Republic, guarantor)
Edition
Brno, Sborník druhého semináře o Linuxu a TeXu, SLT 2001, p. 23-32, 2001
Publisher
Konvoj
Other information
Language
Czech
Type of outcome
Stať ve sborníku
Field of Study
20200 2.2 Electrical engineering, Electronic engineering, Information engineering
Country of publisher
Czech Republic
Confidentiality degree
není předmětem státního či obchodního tajemství
References:
RIV identification code
RIV/00216224:14330/01:00002849
Organization unit
Faculty of Informatics
ISBN
80-7302-009-2
Keywords in English
patterns;UNICODE;finite automata;natural language processing;language engineering
Změněno: 18/10/2006 22:32, doc. RNDr. Petr Sojka, Ph.D.
V originále
Článek popisuje techniku vzorů jako prostředek pro získávání informace z~rozsáhlých dat a zpětné rozpoznávání. Typickou aplikací této techniky je dělení slov. Dosud chybí generátor vzorů dělení pro systém $\Omega$ (pro UNICODE) a rozšíření programu PATGEN, omezeného osmibitovým ASCII, není únosné. Proto vyvíjíme knihovnu PATLIB pro obecnou manipulaci se vzory a na ní postavíme generátor vzorů dělení slov v~UNICODE. Popíšeme architekturu připravovaného systému a dále méně známou datovou strukturu dynamic packed trie, kterou lze výhodně použít pro efektivní ukládání konečných jazyků s výstupy. Vzory lze použít i pro rozpoznávání hranic složených slov, proto zmíníme návrhy na rozšíření následníků TeXu o klasifikované dělení s~více typy dělících bodů a o automatické potlačování ligatur na švech složených~slov.
In English
Pattern generation technique is described, together with design of software library for pattern handling PATLIB.
Links
MSM 143300003, plan (intention) |
| ||
VS97028, research and development project |
|