ANTOŠ, David and Petr SOJKA. Generování vzorů dělení slov v UNICODE (Hyphenation Pattern Generation for UNICODE). In Sborník druhého semináře o Linuxu a TeXu, SLT 2001. Brno: Konvoj, 2001, p. 23-32. ISBN 80-7302-009-2.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name Generování vzorů dělení slov v UNICODE
Name (in English) Hyphenation Pattern Generation for UNICODE
Authors ANTOŠ, David (203 Czech Republic) and Petr SOJKA (203 Czech Republic, guarantor).
Edition Brno, Sborník druhého semináře o Linuxu a TeXu, SLT 2001, p. 23-32, 2001.
Publisher Konvoj
Other information
Original language Czech
Type of outcome Proceedings paper
Field of Study 20200 2.2 Electrical engineering, Electronic engineering, Information engineering
Country of publisher Czech Republic
Confidentiality degree is not subject to a state or trade secret
WWW URL
RIV identification code RIV/00216224:14330/01:00002849
Organization unit Faculty of Informatics
ISBN 80-7302-009-2
Keywords in English patterns;UNICODE;finite automata;natural language processing;language engineering
Tags Finite Automata, language engineering, natural language processing, patterns, Unicode
Changed by Changed by: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Changed: 18/10/2006 22:32.
Abstract
Článek popisuje techniku vzorů jako prostředek pro získávání informace z~rozsáhlých dat a zpětné rozpoznávání. Typickou aplikací této techniky je dělení slov. Dosud chybí generátor vzorů dělení pro systém $\Omega$ (pro UNICODE) a rozšíření programu PATGEN, omezeného osmibitovým ASCII, není únosné. Proto vyvíjíme knihovnu PATLIB pro obecnou manipulaci se vzory a na ní postavíme generátor vzorů dělení slov v~UNICODE. Popíšeme architekturu připravovaného systému a dále méně známou datovou strukturu dynamic packed trie, kterou lze výhodně použít pro efektivní ukládání konečných jazyků s výstupy. Vzory lze použít i pro rozpoznávání hranic složených slov, proto zmíníme návrhy na rozšíření následníků TeXu o klasifikované dělení s~více typy dělících bodů a o automatické potlačování ligatur na švech složených~slov.
Abstract (in English)
Pattern generation technique is described, together with design of software library for pattern handling PATLIB.
Links
MSM 143300003, plan (intention)Name: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministry of Education, Youth and Sports of the CR, Human-computer interaction, dialog systems and assistive technologies
VS97028, research and development projectName: Laboratoř zpracování přirozeného jazyka (s aplikacemi pro podporu výuky zrakově postižených)
Investor: Ministry of Education, Youth and Sports of the CR, Natural Language Processing Laboratory (with applications supporting education of people with limited sight)
PrintDisplayed: 17/5/2024 02:48