ANTOŠ, David a Petr SOJKA. Generování vzorů dělení slov v UNICODE. In Sborník druhého semináře o Linuxu a TeXu, SLT 2001. Brno: Konvoj. s. 23-32. ISBN 80-7302-009-2. 2001.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Generování vzorů dělení slov v UNICODE
Název anglicky Hyphenation Pattern Generation for UNICODE
Autoři ANTOŠ, David (203 Česká republika) a Petr SOJKA (203 Česká republika, garant).
Vydání Brno, Sborník druhého semináře o Linuxu a TeXu, SLT 2001, s. 23-32, 2001.
Nakladatel Konvoj
Další údaje
Originální jazyk čeština
Typ výsledku Stať ve sborníku
Obor 20200 2.2 Electrical engineering, Electronic engineering, Information engineering
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
WWW URL
Kód RIV RIV/00216224:14330/01:00002849
Organizační jednotka Fakulta informatiky
ISBN 80-7302-009-2
Klíčová slova anglicky patterns;UNICODE;finite automata;natural language processing;language engineering
Štítky Finite Automata, language engineering, natural language processing, patterns, Unicode
Změnil Změnil: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Změněno: 18. 10. 2006 22:32.
Anotace
Článek popisuje techniku vzorů jako prostředek pro získávání informace z~rozsáhlých dat a zpětné rozpoznávání. Typickou aplikací této techniky je dělení slov. Dosud chybí generátor vzorů dělení pro systém $\Omega$ (pro UNICODE) a rozšíření programu PATGEN, omezeného osmibitovým ASCII, není únosné. Proto vyvíjíme knihovnu PATLIB pro obecnou manipulaci se vzory a na ní postavíme generátor vzorů dělení slov v~UNICODE. Popíšeme architekturu připravovaného systému a dále méně známou datovou strukturu dynamic packed trie, kterou lze výhodně použít pro efektivní ukládání konečných jazyků s výstupy. Vzory lze použít i pro rozpoznávání hranic složených slov, proto zmíníme návrhy na rozšíření následníků TeXu o klasifikované dělení s~více typy dělících bodů a o automatické potlačování ligatur na švech složených~slov.
Anotace anglicky
Pattern generation technique is described, together with design of software library for pattern handling PATLIB.
Návaznosti
MSM 143300003, záměrNázev: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Interakce člověka s počítačem, dialogové systémy a asistivní technologie
VS97028, projekt VaVNázev: Laboratoř zpracování přirozeného jazyka (s aplikacemi pro podporu výuky zrakově postižených)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Laboratoř zpracování přirozeného jazyka (s aplikacemi pro podporu výuky zrakově postižených)
VytisknoutZobrazeno: 19. 4. 2024 22:08