D 2014

Automatic Adaptation of Author's Stylometric Features to Document Types

RYGL, Jan

Základní údaje

Originální název

Automatic Adaptation of Author's Stylometric Features to Document Types

Název česky

Automatická adaptace stylometrických rysů autora podle typu dokumentů

Autoři

RYGL, Jan (203 Česká republika, garant, domácí)

Vydání

8655. vyd. Switzerland, Text, Speech, and Dialogue - 17th International Conference, od s. 53-61, 9 s. 2014

Nakladatel

Springer International Publishing

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Švýcarsko

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Impakt faktor

Impact factor: 0.402 v roce 2005

Kód RIV

RIV/00216224:14330/14:00073237

Organizační jednotka

Fakulta informatiky

ISBN

978-3-319-10815-5

ISSN

Klíčová slova česky

verifikace autorství; výběr atributů; strojové učení; stylom; stylometrické rysy

Klíčová slova anglicky

authorship verification; feature selection; machine learning; stylome; stylometric features

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 1. 4. 2015 10:35, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

Many Internet users face the problem of anonymous documents and texts with a counterfeit authorship. The number of questionable documents exceeds the capacity of human experts, therefore a universal automated authorship identification system supporting all types of documents is needed. In this paper, five predominant document types are analysed in the context of the authorship verification: books, blogs, discussions, comments and tweets. A method of an automatic selection of authors’ stylometric features using a double-layer machine learning is proposed and evaluated. Experiments are conducted on ten disjunct train and test sets and a method of an efficient training of large number of machine learning models is introduced (163,700 models were trained).

Návaznosti

VF20102014003, projekt VaV
Název: Analýza přirozeného jazyka v prostředí internetu (Akronym: APJI)
Investor: Ministerstvo vnitra ČR, Analýza přirozeného jazyka v prostředí internetu