ŠVEC, Ján a Jan RYGL. Building Corpora for Stylometric Research. In Petr Sojka; Aleš Horák; Ivan Kopeček; Karel Pala. Text, Speech, and Dialogue - 19th International Conference. Germany: Springer International Publishing. s. 20-27. ISBN 978-3-319-45509-9. doi:10.1007/978-3-319-45510-5_3. 2016.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Building Corpora for Stylometric Research
Autoři ŠVEC, Ján (703 Slovensko, domácí) a Jan RYGL (203 Česká republika, garant, domácí).
Vydání Germany, Text, Speech, and Dialogue - 19th International Conference, od s. 20-27, 8 s. 2016.
Nakladatel Springer International Publishing
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Německo
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
Impakt faktor Impact factor: 0.402 v roce 2005
Kód RIV RIV/00216224:14330/16:00090841
Organizační jednotka Fakulta informatiky
ISBN 978-3-319-45509-9
ISSN 0302-9743
Doi http://dx.doi.org/10.1007/978-3-319-45510-5_3
UT WoS 000389707400003
Klíčová slova česky korpus; stylometrie; autorství; crawler
Klíčová slova anglicky corpus; stylometry; authorship; crawler
Štítky firank_B
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 12. 5. 2017 05:06.
Anotace
Authorship recognition, machine translation detection, pedophile identification and other stylometry techniques are daily used in applications for the most widely used languages. On the other hand, under-represented languages lack data sources usable for stylometry research. In this paper, we propose novel algorithm to build corpora containing meta-information required for stylometry experiments (author information, publication time, document heading, document borders) and introduce our tool Authorship Corpora Builder (ACB). We modify data-cleaning techniques for purposes of stylometry field and add a heuristic layer to detect and extract valuable meta-information. The system was evaluated on Czech and Slovak web domains. Collected data have been published and we are planning to build collections for other languages and gradually extend existing ones.
VytisknoutZobrazeno: 19. 4. 2024 04:34