k 2025

Comma Distribution In Czech Texts : Variation By Genre And Author, And Error Analysis

MACHURA, Jakub; Hana ŽIŽKOVÁ a Vojtěch KOVÁŘ

Základní údaje

Originální název

Comma Distribution In Czech Texts : Variation By Genre And Author, And Error Analysis

Vydání

13 th International Conference SLOVKO 2025, Bratislava, 2025

Další údaje

Jazyk

angličtina

Typ výsledku

Prezentace na konferencích

Obor

60203 Linguistics

Stát vydavatele

Slovensko

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Označené pro přenos do RIV

Ano

Organizační jednotka

Filozofická fakulta

Klíčová slova anglicky

Comma typology; Punctuation errors; Czech language; Automatic comma insertion

Štítky

Příznaky

Recenzováno
Změněno: 18. 11. 2025 14:24, Mgr. Ester Gaja Pučálková, Ph.D.

Anotace

V originále

This article investigates the distribution and typology of commas in Czech texts, combining genre-differentiated samples with an annotated error corpus to offer a comprehensive view of punctuation usage and misuse. Building on previous work, we expand the analysis from a small newspaper sample to a broader set of texts, encompassing fiction, blogs, translations, and school dictations. Using a consistent typology of comma usage, we classify 1,000 manually selected instances and identify trends in different textual genres. Furthermore, we examine over 1,000 missing comma errors and more than 200 redundant ones from the self-built error corpus. The results reveal genre-dependent tendencies in comma types, especially in the use of commas preceding connectives and within asyndetic structures. The study offers insights for improving automatic comma insertion systems and deepens our understanding of punctuation norms and deviations in Czech.

Návaznosti

OSCARS-01-247, interní kód MU
Název: Oscars - Opravidlo 2.0 – Public Online Proofreading Service
Investor: Evropská unie, Oscars - Opravidlo 2.0 – Public Online Proofreading Service, Výzkumné infrastruktury