Punctuation Detection with Full Syntactic Parsing

J 2010

Punctuation Detection with Full Syntactic Parsing

JAKUBÍČEK, Miloš a Aleš HORÁK

Základní údaje

Originální název

Punctuation Detection with Full Syntactic Parsing

Název česky

Detekce interpunkce pomocí hloubkové syntaktické analýzy

Autoři

JAKUBÍČEK, Miloš a Aleš HORÁK

Vydání

Research in Computing Science, Special issue: Natural Language Processing and its Applications, Mexiko, Instituto Politécnico Nacional, 2010, 1870-4069

Další údaje

Jazyk

angličtina

Typ výsledku

Článek v odborném periodiku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Odkazy

URL

Označené pro přenos do RIV

Ano

Kód RIV

RIV/00216224:14330/10:00043533

Organizační jednotka

Fakulta informatiky

Klíčová slova česky

interpunkce; korektor pravopisu; synaktická analýza; syntaktická struktura

Klíčová slova anglicky

punctuation; grammar checking; parsing; syntactic analysis

Příznaky

Mezinárodní význam, Recenzováno

Změněno: 10. 11. 2010 11:12, doc. RNDr. Aleš Horák, Ph.D.

Anotace

ORIG CZ

V originále

The correct placement of punctuation characters is in many languages, including Czech, driven by complex guidelines. Although those guidelines use information of morphology, syntax and semantics, state-of-art systems for punctuation detection and correction are limited to simple rule-based backbones. In this paper we present a syntax-based approach by utilizing the Czech parser synt. This parser uses an adapted chart parsing technique for building the chart structure for the sentence. synt can then process the chart and provide several kinds of output information. The implemented punctuation detection technique utilizes the synt output in the form of automatic and unambiguous extraction of optimal syntactic structures from the sentence (noun phrases, verb phrases, clauses, relative clauses or inserted clauses). Using this feature it is possible to obtain information about syntactic structures related to expected punctuation placement. We also present experiments proving that this method makes it possible to cover most syntactic phenomena needed for punctuation detection or correction.

Česky

Správné užívání interpunkčních znamének podléhá v mnoha jazycích, včetně češtiny, složitým pravidlům. Ačkoliv tato pravidla vycházejí z morfologie, syntaxe i sémantiky, současné aplikace pro detekci a korekci interpunkce se omezují na jednoduché pravidlové systémy. V tomto článku představujeme způsob založený na využití syntaktického analyzátoru (parseru) pro češtinu jménem synt. Tento parser používá při analýze strukturu typu chart, ze které lze dále získat různé druhy výstupů. Implementovaná technika detekce interpunkce využívá výstupu ve formě jednoznačných syntaktických struktur (jmenných a slovesných frází, jednoduchých, mj. vztažných, či obecně vložených vět). Tato funkcionalita umožňuje získání syntaktických struktur relevantních pro vkládání interpunkce. Závěrem jsou demonstrovány experimenty prokazující, že tato technika je použitelná pro pokrytí většiny syntaktických fenoménů souvisejících s detekcí interpunkce.

Návaznosti

GAP401/10/0792, projekt VaV

Název: Temporální aspekty znalostí a informací

Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací

LC536, projekt VaV

Název: Centrum komputační lingvistiky

Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky

2C06009, projekt VaV

Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)

Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce

Přehled o publikaci