Tailored Fine-Tuning  For The Comma Insertion  In Czech

J 2025

Tailored Fine-Tuning For The Comma Insertion In Czech

MACHURA, Jakub; Hana ŽIŽKOVÁ; Patrik STANO; Tereza VRABCOVÁ; Dana HLAVÁČKOVÁ et al.

Základní údaje

Originální název

Tailored Fine-Tuning For The Comma Insertion In Czech

Autoři

MACHURA, Jakub; Hana ŽIŽKOVÁ; Patrik STANO; Tereza VRABCOVÁ ; Dana HLAVÁČKOVÁ a Ondřej TRNOVEC

Vydání

Jazykovedný časopis, Bratislava, Jazykovedný ústav Ľudovíta Štúra Slovenskej akadémie vied, 2025, 0021-5597

Další údaje

Jazyk

angličtina

Typ výsledku

Článek v odborném periodiku

Obor

60203 Linguistics

Stát vydavatele

Slovensko

Utajení

není předmětem státního či obchodního tajemství

Odkazy

URL

Označené pro přenos do RIV

Ano

Organizační jednotka

Filozofická fakulta

DOI

https://doi.org/10.2478/jazcas-2025-0024

EID Scopus

2-s2.0-105025792668

Klíčová slova anglicky

comma; Czech language; Fine-tuning; Large Language Model (LLM)

Štítky

rivok

Změněno: 19. 2. 2026 08:53, Mgr. et Mgr. Stanislav Hasil, Ph.D.

Anotace

V originále

Transfer learning techniques, particularly the use of pre-trained Transformers, can be trained on vast amounts of text in a particular language and can be tailored to specific grammar correction tasks, such as automatic punctuation correction. The Czech pre-trained RoBERTa model demonstrates outstanding performance in this task (Machura et al. 2022); however, previous attempts to improve the model have so far led to a slight degradation (Machura et al. 2023). In this paper, we present a more targeted fine-tuning of this model, addressing linguistic phenomena that the base model overlooked. Additionally, we provide a comparison with other models trained on a more diverse dataset beyond just web texts.

Návaznosti

OSCARS-01-247, interní kód MU

Název: Oscars - Opravidlo 2.0 – Public Online Proofreading Service

Investor: Evropská unie, Oscars - Opravidlo 2.0 – Public Online Proofreading Service, Výzkumné infrastruktury

Citovat

MACHURA, Jakub; Hana ŽIŽKOVÁ; Patrik STANO; Tereza VRABCOVÁ; Dana HLAVÁČKOVÁ a Ondřej TRNOVEC. Tailored Fine-Tuning For The Comma Insertion In Czech. Jazykovedný časopis. Bratislava: Jazykovedný ústav Ľudovíta Štúra Slovenskej akadémie vied, 2025, roč. 76, č. 1, s. 268-278. ISSN 0021-5597. Dostupné z: https://doi.org/10.2478/jazcas-2025-0024.

@article{2526165,
   author = {Machura, Jakub and Žižková, Hana and Stano, Patrik and Vrabcová, Tereza and Hlaváčková, Dana and Trnovec, Ondřej},
   article_location = {Bratislava},
   article_number = {1},
   doi = {https://doi.org/10.2478/jazcas-2025-0024},
   keywords = {comma; Czech language; Fine-tuning; Large Language Model (LLM)},
   language = {eng},
   issn = {0021-5597},
   journal = {Jazykovedný časopis},
   title = {Tailored Fine-Tuning For The Comma Insertion In Czech},
   url = {https://www.juls.savba.sk/ediela/jc/2025/1/jc25-01.pdf},
   volume = {76},
   year = {2025}
}

TY  - JOUR
ID  - 2526165
AU  - Machura, Jakub - Žižková, Hana - Stano, Patrik - Vrabcová, Tereza - Hlaváčková, Dana - Trnovec, Ondřej
PY  - 2025
TI  - Tailored Fine-Tuning For The Comma Insertion In Czech
JF  - Jazykovedný časopis
VL  - 76
IS  - 1
SP  - 268-278
EP  - 268-278
PB  - Jazykovedný ústav Ľudovíta Štúra Slovenskej akadémie vied
SN  - 00215597
KW  - comma
KW  - Czech language
KW  - Fine-tuning
KW  - Large Language Model (LLM)
UR  - https://www.juls.savba.sk/ediela/jc/2025/1/jc25-01.pdf
N2  - Transfer learning techniques, particularly the use of pre-trained Transformers, can be trained on vast amounts of text in a particular language and can be tailored to specific grammar correction tasks, such as automatic punctuation correction. The Czech pre-trained RoBERTa model demonstrates outstanding performance in this task (Machura et al. 2022); however, previous attempts to improve the model have so far led to a slight degradation (Machura et al. 2023). In this paper, we present a more targeted fine-tuning of this model, addressing linguistic phenomena that the base model overlooked. Additionally, we provide a comparison with other models trained on a more diverse dataset beyond just web texts.
ER  -

MACHURA, Jakub; Hana ŽIŽKOVÁ; Patrik STANO; Tereza VRABCOVÁ; Dana HLAVÁČKOVÁ a Ondřej TRNOVEC. Tailored Fine-Tuning For The Comma Insertion In Czech. \textit{Jazykovedný časopis}. Bratislava: Jazykovedný ústav Ľudovíta Štúra Slovenskej akadémie vied, 2025, roč.~76, č.~1, s.~268-278. ISSN~0021-5597. Dostupné z: https://doi.org/10.2478/jazcas-2025-0024.

Přehled o publikaci