D 2005

Robust stochastic parsing: comparing two approaches for processing extra-grammatical sentences

AILOMAA, Marita, Vladimír KADLEC, Jean-Cédric CHAPPELIER and Martin RAJMAN

Basic information

Original name

Robust stochastic parsing: comparing two approaches for processing extra-grammatical sentences

Name in Czech

Robustní syntaktická analýza: Porovnání dvou přístupů pro zpracování ne-gramatických vět

Authors

AILOMAA, Marita (752 Sweden), Vladimír KADLEC (203 Czech Republic, guarantor), Jean-Cédric CHAPPELIER (756 Switzerland) and Martin RAJMAN (756 Switzerland)

Edition

2005. vyd. Finland, Proceedings of the 15th Nordic Conference of Computational Linguistics (NODALIDA) 2005, p. 21-29, 8 pp. 2005

Publisher

University of Joensuu

Other information

Language

English

Type of outcome

Stať ve sborníku

Field of Study

10201 Computer sciences, information science, bioinformatics

Country of publisher

Finland

Confidentiality degree

není předmětem státního či obchodního tajemství

RIV identification code

RIV/00216224:14330/05:00012486

Organization unit

Faculty of Informatics

Keywords in English

robust; parsing; NLP

Tags

Změněno: 19/1/2006 17:11, RNDr. Vladimír Kadlec, Ph.D.

Abstract

V originále

This paper compares two techniques for robust parsing of extra-grammatical natural language that might be of interest in large scale Textual Data Analysis applications. The first one returns a "correct" derivation for any extra-grammatical sentence by generating the finest corresponding most probable optimal maximum coverage. The second one extends the initial grammar by adding relaxed grammar rules in a controlled manner. Both techniques use a stochastic parser that selects a "best" solution among multiple analyses. The techniques were tested on the ATIS and Susanne corp ora and exp erimental results, as well as conclusions on performance comparison, are provided.

In Czech

Článek porovnává dvě techniky pro robustní syntaktickou analýzu ne-gramatických vět. Tyto techniky mohou nalézt využití v šikokém spektru aplikací pro zpracování textových dat. První technika vrací "korektní" analýzu pro jakoukouliv ne-gramatickou větu vygenerováním příslušného nejpravděpodobnějšího optimálního maximálního pokrytí. Druhá technika rozšiřuje původní gramatiku přidáním volných pravidel. Obě techniky používají pravděpodobnostní syntaktický analyzátor. Techniky byly testovány na korpusech ATIS a Susanne.

Links

GA201/05/2781, research and development project
Name: Překlad českých vět do konstrukcí transparentní intenzionální logiky
Investor: Czech Science Foundation, Translation of Czech Sentences to Transparent Intensional Logic Constructions
1ET100300414, research and development project
Name: Inteligentní metody pro zvýšení spolehlivosti elektrických sítí
Investor: Academy of Sciences of the Czech Republic, Intelligentmethods for incresing of reliability of electrical networks