SOJKA, Petr a David ANTOŠ. Context Sensitive Pattern Based Segmentation: A Thai Challenge. In Proceedings of EACL 2003 workshop Computational Linguistics for South Asian Languages -- Expanding Synergies with Europe. Budapest: Association for Computational Linguistics, 2003, s. 65-72. ISBN 1-932432-02-7.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Context Sensitive Pattern Based Segmentation: A Thai Challenge
Autoři SOJKA, Petr (203 Česká republika, garant) a David ANTOŠ (203 Česká republika).
Vydání Budapest, Proceedings of EACL 2003 workshop Computational Linguistics for South Asian Languages -- Expanding Synergies with Europe, od s. 65-72, 8 s. 2003.
Nakladatel Association for Computational Linguistics
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Maďarsko
Utajení není předmětem státního či obchodního tajemství
WWW URL of Proceedings
Kód RIV RIV/00216224:14330/03:00008605
Organizační jednotka Fakulta informatiky
ISBN 1-932432-02-7
Klíčová slova anglicky segmentation Thai competing patterns
Štítky segmentation Thai competing patterns
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Změněno: 13. 2. 2007 23:05.
Anotace
A Thai written text is a string of symbols without explicit word boundaries. A method for a development of a segmentation tool from a corpus of already segmented text is described. The methodology is based on the technology of competing patterns. A new UNICODE pattern generation program, OPATGEN, is used for the learning phase. We have shown feasibility of our methodology by generating patterns for Thai segmentation from already segmented text of the Thai corpus ORCHID: the segmentation algorithm quickly reaches F-score of 93 %. Finally, we enumerate possible new applications based on the pattern technique, and conclude with the suggestion of a general Pattern Translation Process. The technology is general and can be used for any other segmentation tasks as phonetic, morphologic segmentation, word hyphenation, sentence segmentation and text topic segmentation for any language.
Návaznosti
MSM 143300003, záměrNázev: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Interakce člověka s počítačem, dialogové systémy a asistivní technologie
VytisknoutZobrazeno: 26. 4. 2024 12:57