D 2012

Authorship Verification based on Syntax Features

RYGL, Jan, Kristýna ZEMKOVÁ a Vojtěch KOVÁŘ

Základní údaje

Originální název

Authorship Verification based on Syntax Features

Autoři

RYGL, Jan (203 Česká republika, garant, domácí), Kristýna ZEMKOVÁ (203 Česká republika, domácí) a Vojtěch KOVÁŘ (203 Česká republika, domácí)

Vydání

1st ed. Brno (Czech Republic), Proceedings of the Sixth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2012, od s. 111-119, 9 s. 2012

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Kód RIV

RIV/00216224:14330/12:00062288

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-0313-8

Klíčová slova česky

ověřování autorství;syntaktická analýza;SET;strojové učení

Klíčová slova anglicky

authorship verification;syntactic analysis;SET;machine learning

Příznaky

Mezinárodní význam
Změněno: 26. 5. 2021 18:06, RNDr. Jan Rygl

Anotace

V originále

Authorship verification is wildly discussed topic at these days. In the authorship verification problem, we are given examples of the writing of an author and are asked to determine if given texts were or were not written by this author. In this paper we present an algorithm using syntactic analysis system SET for verifying authorship of the documents. We propose three variants of two-class machine learning approach to authorship verification. Syntactic features are used as attributes in suggested algorithms and their performance is compared to established word-lenth distribution features. Results indicate that syntactic features provide enough information to improve accuracy of authorship verification algorithms.

Návaznosti

VF20102014003, projekt VaV
Název: Analýza přirozeného jazyka v prostředí internetu (Akronym: APJI)
Investor: Ministerstvo vnitra ČR, Analýza přirozeného jazyka v prostředí internetu