D 2011

A Framework for Authorship Identification in the Internet Environment

RYGL, Jan a Aleš HORÁK

Základní údaje

Originální název

A Framework for Authorship Identification in the Internet Environment

Autoři

RYGL, Jan (203 Česká republika, domácí) a Aleš HORÁK (203 Česká republika, garant, domácí)

Vydání

1st ed. Brno (Czech Republic), Proceedings of Fifth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2011, od s. 117-124, 8 s. 2011

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

20200 2.2 Electrical engineering, Electronic engineering, Information engineering

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Kód RIV

RIV/00216224:14330/11:00054037

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-0077-9

Klíčová slova česky

určování autorství;podobnost autorství

Klíčová slova anglicky

authorship identification;authorship similarity

Příznaky

Mezinárodní význam
Změněno: 26. 5. 2021 18:06, RNDr. Jan Rygl

Anotace

V originále

Misuse of anonymous online communication for illegal purposes has become a major concern. In this paper, we present a framework named ART (Authorship Recognition Tool), that is designed to minimize manual procedures and maximize the efficiency of authorship identification based on the content of Internet electronic documents. The framework covers the phases of document retrieval and database document management. ART provides implementations of efficient authorship identification algorithm and authorship similarity algorithm including the possibility to obtain extra data for learning and tests. The framework also determines whether or not different author’s identities are interlinked. The authorship is analysed by machine learning and natural language processing methods. Technical information such as IP address is considered only as an optional attribute for the machine learning because it can be easily forged or devalued if the author communicates from public places or through proxy servers.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
VF20102014003, projekt VaV
Název: Analýza přirozeného jazyka v prostředí internetu (Akronym: APJI)
Investor: Ministerstvo vnitra ČR, Analýza přirozeného jazyka v prostředí internetu