D 2001

Generování vzorů dělení slov v UNICODE

ANTOŠ, David a Petr SOJKA

Základní údaje

Originální název

Generování vzorů dělení slov v UNICODE

Název anglicky

Hyphenation Pattern Generation for UNICODE

Autoři

ANTOŠ, David (203 Česká republika) a Petr SOJKA (203 Česká republika, garant)

Vydání

Brno, Sborník druhého semináře o Linuxu a TeXu, SLT 2001, s. 23-32, 2001

Nakladatel

Konvoj

Další údaje

Jazyk

čeština

Typ výsledku

Stať ve sborníku

Obor

20200 2.2 Electrical engineering, Electronic engineering, Information engineering

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Kód RIV

RIV/00216224:14330/01:00002849

Organizační jednotka

Fakulta informatiky

ISBN

80-7302-009-2

Klíčová slova anglicky

patterns;UNICODE;finite automata;natural language processing;language engineering
Změněno: 18. 10. 2006 22:32, doc. RNDr. Petr Sojka, Ph.D.

Anotace

V originále

Článek popisuje techniku vzorů jako prostředek pro získávání informace z~rozsáhlých dat a zpětné rozpoznávání. Typickou aplikací této techniky je dělení slov. Dosud chybí generátor vzorů dělení pro systém $\Omega$ (pro UNICODE) a rozšíření programu PATGEN, omezeného osmibitovým ASCII, není únosné. Proto vyvíjíme knihovnu PATLIB pro obecnou manipulaci se vzory a na ní postavíme generátor vzorů dělení slov v~UNICODE. Popíšeme architekturu připravovaného systému a dále méně známou datovou strukturu dynamic packed trie, kterou lze výhodně použít pro efektivní ukládání konečných jazyků s výstupy. Vzory lze použít i pro rozpoznávání hranic složených slov, proto zmíníme návrhy na rozšíření následníků TeXu o klasifikované dělení s~více typy dělících bodů a o automatické potlačování ligatur na švech složených~slov.

Anglicky

Pattern generation technique is described, together with design of software library for pattern handling PATLIB.

Návaznosti

MSM 143300003, záměr
Název: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Interakce člověka s počítačem, dialogové systémy a asistivní technologie
VS97028, projekt VaV
Název: Laboratoř zpracování přirozeného jazyka (s aplikacemi pro podporu výuky zrakově postižených)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Laboratoř zpracování přirozeného jazyka (s aplikacemi pro podporu výuky zrakově postižených)