D 2016

Building Corpora for Stylometric Research

ŠVEC, Ján a Jan RYGL

Základní údaje

Originální název

Building Corpora for Stylometric Research

Autoři

ŠVEC, Ján (703 Slovensko, domácí) a Jan RYGL (203 Česká republika, garant, domácí)

Vydání

Germany, Text, Speech, and Dialogue - 19th International Conference, od s. 20-27, 8 s. 2016

Nakladatel

Springer International Publishing

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Německo

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Impakt faktor

Impact factor: 0.402 v roce 2005

Kód RIV

RIV/00216224:14330/16:00090841

Organizační jednotka

Fakulta informatiky

ISBN

978-3-319-45509-9

ISSN

UT WoS

000389707400003

Klíčová slova česky

korpus; stylometrie; autorství; crawler

Klíčová slova anglicky

corpus; stylometry; authorship; crawler

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 12. 5. 2017 05:06, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

Authorship recognition, machine translation detection, pedophile identification and other stylometry techniques are daily used in applications for the most widely used languages. On the other hand, under-represented languages lack data sources usable for stylometry research. In this paper, we propose novel algorithm to build corpora containing meta-information required for stylometry experiments (author information, publication time, document heading, document borders) and introduce our tool Authorship Corpora Builder (ACB). We modify data-cleaning techniques for purposes of stylometry field and add a heuristic layer to detect and extract valuable meta-information. The system was evaluated on Czech and Slovak web domains. Collected data have been published and we are planning to build collections for other languages and gradually extend existing ones.