ANTOŠ, David a Petr SOJKA. Pattern Generation Revisited. In Proceedings of the Twelfth European TeX Conference. Kerkrade, The Netherlands: NTG, 2001. s. 7-17.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Pattern Generation Revisited
Název česky Generování vzorů
Autoři ANTOŠ, David (203 Česká republika) a Petr SOJKA (203 Česká republika, garant).
Vydání Kerkrade, The Netherlands, Proceedings of the Twelfth European TeX Conference, s. 7-17, 2001.
Nakladatel NTG
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 2.2 Electrical engineering, Electronic engineering, Information engineering
Stát vydavatele Nizozemsko
Utajení není předmětem státního či obchodního tajemství
WWW Authors publication WWW page EuroTeX 2001 Proceedings WWW page
Kód RIV RIV/00216224:14330/01:00004829
Organizační jednotka Fakulta informatiky
Klíčová slova anglicky patterns;UNICODE;finite automata;natural language processing;language engineering
Štítky Finite Automata, language engineering, natural language processing, patterns, Unicode
Změnil Změnil: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Změněno: 18. 10. 2006 22:34.
Anotace
The program PATGEN, being nearly twenty years old, doesn't suit today's needs, as a) it is nearly impossible to make changes, b) it is limited to eight-bit encodings, c) it uses static data structures, d) reuse of the pattern technique and packed trie data structure for problems other than hyphenation (context dependent ligature handling, spell checking Thai syllabification, etc) is cumbersome. Those and other reasons explained further in the paper led us to the decision to reimplement PATGEN from scratch in an object-oriented manner (like NTS) and to create the PATtern LIBrary PATLIB and the (hyphenation) pattern generator based on it. We argue that this general aproach allows the code to be used in many applications in computer typesetting area, in addition to those of pattern recognition, which include various language processing, optical character recognition, and others.
Anotace česky
Článek popisuje techniku vzorů jako prostředek pro získávání informace z~rozsáhlých dat a zpětné rozpoznávání. Typickou aplikací této techniky je dělení slov. Dosud chybí generátor vzorů dělení pro systém $\Omega$ (pro UNICODE) a rozšíření programu PATGEN, omezeného osmibitovým ASCII, není únosné. Proto jsme vyvinuli knihovnu PATLIB pro obecnou manipulaci se vzory a na ní postavili generátor vzorů dělení slov v~UNICODE. Popsali jsme architekturu systému a dále méně známou datovou strukturu dynamic packed trie, kterou lze výhodně použít pro efektivní ukládání konečných jazyků s výstupy. Vzory lze použít i pro rozpoznávání hranic složených slov, proto zmíníme návrhy na rozšíření následníků TeXu o klasifikované dělení s~více typy dělících bodů a o automatické potlačování ligatur na švech složených~slov.
Návaznosti
MSM 143300003, záměrNázev: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Výzkumné záměry
VytisknoutZobrazeno: 22. 9. 2019 23:10