D 2001

Generování vzorů dělení slov v UNICODE

ANTOŠ, David and Petr SOJKA

Basic information

Original name

Generování vzorů dělení slov v UNICODE

Name (in English)

Hyphenation Pattern Generation for UNICODE

Authors

ANTOŠ, David (203 Czech Republic) and Petr SOJKA (203 Czech Republic, guarantor)

Edition

Brno, Sborník druhého semináře o Linuxu a TeXu, SLT 2001, p. 23-32, 2001

Publisher

Konvoj

Other information

Language

Czech

Type of outcome

Stať ve sborníku

Field of Study

20200 2.2 Electrical engineering, Electronic engineering, Information engineering

Country of publisher

Czech Republic

Confidentiality degree

není předmětem státního či obchodního tajemství

References:

RIV identification code

RIV/00216224:14330/01:00002849

Organization unit

Faculty of Informatics

ISBN

80-7302-009-2

Keywords in English

patterns;UNICODE;finite automata;natural language processing;language engineering
Změněno: 18/10/2006 22:32, doc. RNDr. Petr Sojka, Ph.D.

Abstract

V originále

Článek popisuje techniku vzorů jako prostředek pro získávání informace z~rozsáhlých dat a zpětné rozpoznávání. Typickou aplikací této techniky je dělení slov. Dosud chybí generátor vzorů dělení pro systém $\Omega$ (pro UNICODE) a rozšíření programu PATGEN, omezeného osmibitovým ASCII, není únosné. Proto vyvíjíme knihovnu PATLIB pro obecnou manipulaci se vzory a na ní postavíme generátor vzorů dělení slov v~UNICODE. Popíšeme architekturu připravovaného systému a dále méně známou datovou strukturu dynamic packed trie, kterou lze výhodně použít pro efektivní ukládání konečných jazyků s výstupy. Vzory lze použít i pro rozpoznávání hranic složených slov, proto zmíníme návrhy na rozšíření následníků TeXu o klasifikované dělení s~více typy dělících bodů a o automatické potlačování ligatur na švech složených~slov.

In English

Pattern generation technique is described, together with design of software library for pattern handling PATLIB.

Links

MSM 143300003, plan (intention)
Name: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministry of Education, Youth and Sports of the CR, Human-computer interaction, dialog systems and assistive technologies
VS97028, research and development project
Name: Laboratoř zpracování přirozeného jazyka (s aplikacemi pro podporu výuky zrakově postižených)
Investor: Ministry of Education, Youth and Sports of the CR, Natural Language Processing Laboratory (with applications supporting education of people with limited sight)