Stylometrická analýza církevněslovanských textů české
provenience

J 2023

Stylometrická analýza církevněslovanských textů české provenience

ČECH, Radek and Miroslav VEPŘEK

Basic information

Original name

Stylometrická analýza církevněslovanských textů české provenience

Name (in English)

Stylometric Analysis of the Church Slavonic Texts of Czech Origin

Authors

ČECH, Radek (203 Czech Republic, guarantor, belonging to the institution) and Miroslav VEPŘEK (203 Czech Republic)

Edition

SLAVIA : časopis pro slovanskou filologii, CZECH REPUBLIC, Slovanský ústav AV ČR, 2023, 0037-6736

Other information

Language

Czech

Type of outcome

Article in a journal

Field of Study

60203 Linguistics

Country of publisher

Czech Republic

Confidentiality degree

is not subject to a state or trade secret

References:

URL

Impact factor

Impact factor: 0.200 in 2022

Organization unit

Faculty of Arts

DOI

http://dx.doi.org/10.58377/slav.2023.5.06

UT WoS

001197465900006

Keywords in English

cluster analysis; Czech Church Slavonic; lexical diversity; stylometric analysis; token length

Abstract

ORIG EN

V originále

Příspěvek představuje pilotní studii stylistické analýzy českých církevněslovanských textů. Cílem studie je měření podobností/rozdílů mezi texty na základě vybraných kvantitativních charakteristik. Konkrétně je použita průměrná délka tokenu (ATL), klouzavý průměrný poměr typů a tokenů (MATTR) a textové vzdálenosti určené normalizovanými frekvencemi nejfrekventovanějších slov (MFW). Pro analýzu byl použit korpus dvanácti církevněslovanských literárních spisů připisovaných (s různou pravděpodobností) českým autorům v 10. a 11. století. Navíc byly přidány další dva textové prameny (Codex Suprasliensis a Život svatého Metoděje), aby bylo možné porovnat výsledky a získat komplexnější pohled na vztahy mezi texty. Výsledky ukazují věrohodnost aplikace metod na tomto specifickém vzorku textů.

In English

The paper presents a pilot study of stylometric analysis of Czech Church Slavonic texts. The aim of the study is to measure similarities / differences among texts based on selected quantitative characteristics. Specifically, the average token length (ATL), moving average type-token ratio (MATTR), and text distances determined by normalized frequencies of the most frequent words (MFW) are applied. For the analysis, we used a corpus of twelve Church Slavonic literary writings attributed (with various probability) to Czech authors in the 10th and 11th centuries. In addition, two more textual sources were added (Codex Suprasliensis and the Life of St. Methodius) to compare the results and get a more complex view of relationships among texts. The results show the plausibility of the application of methods on this specific sample of texts.

Citovat

ČECH, Radek and Miroslav VEPŘEK. Stylometrická analýza církevněslovanských textů české provenience (Stylometric Analysis of the Church Slavonic Texts of Czech Origin). SLAVIA : časopis pro slovanskou filologii. CZECH REPUBLIC: Slovanský ústav AV ČR, 2023, vol. 92, No 5, p. 625-640. ISSN 0037-6736. Available from: https://dx.doi.org/10.58377/slav.2023.5.06.

@article{2407699,
   author = {Čech, Radek and Vepřek, Miroslav},
   article_location = {CZECH REPUBLIC},
   article_number = {5},
   doi = {http://dx.doi.org/10.58377/slav.2023.5.06},
   keywords = {cluster analysis; Czech Church Slavonic; lexical diversity; stylometric analysis; token length},
   language = {cze},
   issn = {0037-6736},
   journal = {SLAVIA : časopis pro slovanskou filologii},
   title = {Stylometrická analýza církevněslovanských textů české provenience},
   url = {https://www.slu.cas.cz/cs/slavia},
   volume = {92},
   year = {2023}
}

TY  - JOUR
ID  - 2407699
AU  - Čech, Radek - Vepřek, Miroslav
PY  - 2023
TI  - Stylometrická analýza církevněslovanských textů české provenience
JF  - SLAVIA : časopis pro slovanskou filologii
VL  - 92
IS  - 5
SP  - 625-640
EP  - 625-640
PB  - Slovanský ústav AV ČR
SN  - 00376736
KW  - cluster analysis
KW  - Czech Church Slavonic
KW  - lexical diversity
KW  - stylometric analysis
KW  - token length
UR  - https://www.slu.cas.cz/cs/slavia
N2  - Příspěvek představuje pilotní studii stylistické analýzy českých církevněslovanských textů. Cílem studie je měření podobností/rozdílů mezi texty na základě vybraných kvantitativních charakteristik. Konkrétně je použita průměrná délka tokenu (ATL), klouzavý průměrný poměr typů a tokenů (MATTR) a textové vzdálenosti určené normalizovanými frekvencemi nejfrekventovanějších slov (MFW). Pro analýzu byl použit korpus dvanácti církevněslovanských literárních spisů připisovaných (s různou pravděpodobností) českým autorům v 10. a 11. století. Navíc byly přidány další dva textové prameny (Codex Suprasliensis a Život svatého Metoděje), aby bylo možné porovnat výsledky a získat komplexnější pohled na vztahy mezi texty. Výsledky ukazují věrohodnost aplikace metod na tomto specifickém vzorku textů.
ER  -

ČECH, Radek and Miroslav VEPŘEK. Stylometrická analýza církevněslovanských textů české provenience (Stylometric Analysis of the Church Slavonic Texts of Czech Origin). \textit{SLAVIA : časopis pro slovanskou filologii}. CZECH REPUBLIC: Slovanský ústav AV ČR, 2023, vol.~92, No~5, p.~625-640. ISSN~0037-6736. Available from: https://dx.doi.org/10.58377/slav.2023.5.06.

Detailed Information on Publication Record