Competing Patterns in Language Engineering and Computer
Typesetting

SOJKA, Petr. Competing Patterns in Language Engineering and Computer Typesetting. Online. první. Brno: Masarykova univerzita, 2005. 140 s. PhD. dissertation. [citováno 2024-04-24]

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Competing Patterns in Language Engineering and Computer Typesetting
Název česky	Soutěživé vzory v jazykovém inženýrství a počítačové sazbě
Autoři	SOJKA, Petr (203 Česká republika, garant, domácí)
Vydání	první. Brno, 140 s. PhD. dissertation, 2005.
Nakladatel	Masarykova univerzita

Další údaje
Originální jazyk	angličtina
Typ výsledku	Účelové publikace
Obor	10201 Computer sciences, information science, bioinformatics
Stát vydavatele	Česká republika
Utajení	není předmětem státního či obchodního tajemství
WWW	fulltext (PDF)
Kód RIV	RIV/00216224:14330/05:00024493
Organizační jednotka	Fakulta informatiky
Klíčová slova česky	soutěživé vzory; kontextově-citlivé vzory; strojové učení; jazykové inženýrství; dělení slov; segmentace [thajského textu]; desambiguace;
Klíčová slova anglicky	competing patterns;context-sensitive patterns;machine learning;natural language engineering;hyphenation; [Thai text] segmentation;disambiguation;formal concept analysis;part of speech tagging;
Štítky	competing patterns, context-sensitive patterns, disambiguation, formal concept analysis, hyphenation, machine learning, natural language engineering, part of speech tagging, [Thai text] segmentation
Příznaky	Mezinárodní význam, Recenzováno
Změnil	Změnil: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Změněno: 26. 1. 2012 18:57.

Anotace

The goal of this dissertation is to explore models, methods and methodologies for machine learning of the compact and effective storage of empirical data in the areas of language engineering and computer typesetting, with a focus on the massive exception handling. Research has focused on the pattern-driven approach. The whole methodology of so called \stress{competing patterns} capable of handling exceptions to be found so widely in natural language data and computer typesetting, is further developed. Competing patterns can store \stress{context dependent} information and can be learnt from data, or written by experts, or combined together. In the first part of the thesis, the theory of competing patterns is built; competing patterns are defined, cornerstones of methodology based on stratified sampling, bootstrapping and problem modeling by competing patterns are described. Segmentation problems (hyphenation) and problems of disambiguation of tagged data in corpus linguistics are used as examples when developing formal model of the competing patterns method. The second part consist of a series of seven published papers that describe problems addressed by the proposed methods: applications of competing patterns and related learning methods in areas of hyphenation, hyphenation of compound words and, for example, the segmentation of Thai texts.

Anotace česky

Cílem této dizertační práce je vývoj modelů, metod a metodologie pro strojové učení kompaktního a efektivního uložení dat v~oblastech jazykového inženýrství a počítačové sazby, se zaměřením na masivní zpracování výjimek. Výzkum se soustředil na přístup řízený vzory. Byla vyvinuta celá metodologie takzvaných přebíjejících vzorů, pomocí níž je možné zpracovat (detekovat, efektivně uložit a v~nich vyhledávat) výjimky. Přebíjející vzory umožňují ukládat kontextově závislou informaci, která může být naučena z~dat, nebo napsána expertem, nebo vzájemně kombinována. První část práce buduje teorii přebíjejících vzorů; jsou definovány základní techniky metodologie jako stratifikace, bootstraping, filtrování dat. Užití technologie je ukázáno na příkladech segmentačních problémů (dělení slov) a problému parciální morfologické desambiguace značkovaných dat v~oblasti korpusové lingvistiky. Druhá část práce obsahuje soubor sedmi publikovaných článků, které se zabývají nasazením navržené metodologie a diskutují její možnosti a aplikace v~oblastech dělení slov, dělení složených slov, generování přebíjejících vzorů pro češtinu a slovenštinu a například i segmentaci thajského textu.

Návaznosti
1ET200190513, projekt VaV	Název: DML-CZ: Česká digitální matematická knihovna
1ET200190513, projekt VaV	Investor: Akademie věd ČR, DML-CZ: Česká digitální matematická knihovna

VytisknoutZobrazeno: 24. 4. 2024 12:32

Competing Patterns in Language Engineering and Computer Typesetting

Další aplikace