Effective Parsing Using Competing CFG Rules

JAKUBÍČEK, Miloš. Effective Parsing Using Competing CFG Rules. In Habernal, Matoušek. Proceedings of Text, Speech and Dialogue 2011. Berlin, Heidelberg: Springer Verlag, 2011, s. 115-122. ISBN 978-3-642-23537-5.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Effective Parsing Using Competing CFG Rules
Autoři	JAKUBÍČEK, Miloš (203 Česká republika, garant, domácí).
Vydání	Berlin, Heidelberg, Proceedings of Text, Speech and Dialogue 2011, od s. 115-122, 8 s. 2011.
Nakladatel	Springer Verlag

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	10201 Computer sciences, information science, bioinformatics
Stát vydavatele	Česká republika
Utajení	není předmětem státního či obchodního tajemství
WWW	URL
Kód RIV	RIV/00216224:14330/11:00049948
Organizační jednotka	Fakulta informatiky
ISBN	978-3-642-23537-5
UT WoS	000312640500015
Klíčová slova anglicky	parsing; syntactic analysis; CFG; competing rule
Příznaky	Mezinárodní význam, Recenzováno
Změnil	Změnil: RNDr. Miloš Jakubíček, Ph.D., učo 172962. Změněno: 27. 6. 2012 12:01.

Anotace

In this paper a new pruning method for a rule-based parser is described that relies on separating the underlying grammar rules into several mutually competing levels. This method has been developed and exploited for Czech in the syntactic parser Synt to reduce the number of possible output derivation trees. The algorithm behind operates on a so called packed forest of trees, a compressing data structure used for internal representation of parallel analyses, and thus performs very effectively. An evaluation of its contribution has been performed on the Brno Phrasal Treebank showing that the algorithm significantly prunes the resulting tree space while preserving perspective parses.

Anotace česky

Článek představuje novou prořezávací metodu pro pravidlový syntaktický analyzátor, která je založena na rozdělení gramatických pravidel do několika vzájemně se vylučujících úrovní. Tato metoda byla vyvinuta a využita pro český syntaktický analyzátor Synt za účelem snížení počtu výstupních syntaktických stromů. Související algoritmy jsou velmi efektivní díky tomu, že využívají kompresivní datové struktury, která zahrnuje všechny paralelní analýzy. Vyhodnocení přínosu vyvinuté metody bylo provedeno na stromovém korpusu Brno Phrasal Treebank a prokazuje výrazné snížení počtu výstupních stromů, aniž by tím zároveň byla dotčena přesnost analýzy.

Návaznosti
GAP401/10/0792, projekt VaV	Název: Temporální aspekty znalostí a informací
GAP401/10/0792, projekt VaV	Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací
VF20102014003, projekt VaV	Název: Analýza přirozeného jazyka v prostředí internetu (Akronym: APJI)
VF20102014003, projekt VaV	Investor: Ministerstvo vnitra ČR, Analýza přirozeného jazyka v prostředí internetu
248307, interní kód MU	Název: Pattern Recognition-based Statistically Enhanced MT (Akronym: PRESEMT)
248307, interní kód MU	Investor: Evropská unie, Pattern Recognition-based Statistically Enhanced MT, Spolupráce

VytisknoutZobrazeno: 13. 5. 2024 08:15

Effective Parsing Using Competing CFG Rules

Další aplikace