2015
Slavonic Corpus for Stylometry Research
ŠVEC, Ján a Jan RYGLZákladní údaje
Originální název
Slavonic Corpus for Stylometry Research
Vydání
1st ed. Brno (Czech Republic. Brno, Proceedings of Ninth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2015. od s. 11-21, 11 s. 2015
Nakladatel
Tribun EU
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Odkazy
Označené pro přenos do RIV
Ano
Kód RIV
RIV/00216224:14330/15:00085135
Organizační jednotka
Fakulta informatiky
ISBN
978-80-263-0974-1
ISSN
Klíčová slova anglicky
stylometry; slavonic corpus; web structure detection; corpora building
Změněno: 7. 6. 2021 17:57, RNDr. Jan Rygl
Anotace
V originále
Stylometry techniques such as authorship recognition, machine translation detection and pedophile identification are daily used in applications for the most widely used languages. But under-represented languages lack data sources usable for stylometry research. In this paper, we propose an algorithm to build corpora containing meta-information required for stylometry experiments (author information, publication time, document heading, document borders) and introduce our tool Authorship Corpora Builder (ACB). We modify crawling and data-cleaning techniques for purposes of stylometry field and add heuristic layer to detect and extract meta-information. The system was used on Czech and Slovak web domains to build a Slavonic corpus for stylometry research. Collected data have been published and we are planning to build collections for other languages and gradually extend existing ones.
Návaznosti
| LM2010013, projekt VaV |
|