D 2003

Context Sensitive Pattern Based Segmentation: A Thai Challenge

SOJKA, Petr a David ANTOŠ

Základní údaje

Originální název

Context Sensitive Pattern Based Segmentation: A Thai Challenge

Autoři

SOJKA, Petr (203 Česká republika, garant) a David ANTOŠ (203 Česká republika)

Vydání

Budapest, Proceedings of EACL 2003 workshop Computational Linguistics for South Asian Languages -- Expanding Synergies with Europe, od s. 65-72, 8 s. 2003

Nakladatel

Association for Computational Linguistics

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Maďarsko

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14330/03:00008605

Organizační jednotka

Fakulta informatiky

ISBN

1-932432-02-7

Klíčová slova anglicky

segmentation Thai competing patterns

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 13. 2. 2007 23:05, doc. RNDr. Petr Sojka, Ph.D.

Anotace

V originále

A Thai written text is a string of symbols without explicit word boundaries. A method for a development of a segmentation tool from a corpus of already segmented text is described. The methodology is based on the technology of competing patterns. A new UNICODE pattern generation program, OPATGEN, is used for the learning phase. We have shown feasibility of our methodology by generating patterns for Thai segmentation from already segmented text of the Thai corpus ORCHID: the segmentation algorithm quickly reaches F-score of 93 %. Finally, we enumerate possible new applications based on the pattern technique, and conclude with the suggestion of a general Pattern Translation Process. The technology is general and can be used for any other segmentation tasks as phonetic, morphologic segmentation, word hyphenation, sentence segmentation and text topic segmentation for any language.

Návaznosti

MSM 143300003, záměr
Název: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Interakce člověka s počítačem, dialogové systémy a asistivní technologie