Určování autorství anonymních textů na základě automaticky
nalezených charakteristických znaků

RYGL, Jan. Určování autorství anonymních textů na základě automaticky nalezených charakteristických znaků. Brno: Fakulta informatiky Masarykovy univerzity, 2011, 67 s.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Určování autorství anonymních textů na základě automaticky nalezených charakteristických znaků
Název česky	Určování autorství anonymních textů na základě automaticky nalezených charakteristických znaků
Název anglicky	Determining Authorship of Anonymous Texts Based on Automatically Discovered Characteristic Features
Autoři	RYGL, Jan (203 Česká republika, garant, domácí).
Vydání	Brno, 67 s. 2011.
Nakladatel	Fakulta informatiky Masarykovy univerzity

Další údaje
Originální jazyk	čeština
Typ výsledku	Účelové publikace
Obor	10201 Computer sciences, information science, bioinformatics
Stát vydavatele	Česká republika
Utajení	není předmětem státního či obchodního tajemství
WWW	URL
Kód RIV	RIV/00216224:14330/11:00073205
Organizační jednotka	Fakulta informatiky
Klíčová slova česky	anonymní dokument, charakteristický rys autora; přiřazování autorství;shlukování podle autorství; SVM; strojové učení
Klíčová slova anglicky	anonymous document; author's writeprint; authorship attribution; clustering; machine learning
Příznaky	Recenzováno
Změnil	Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 2. 4. 2015 14:17.

Anotace

Magisterská diplomová práce. V práci vycházíme z řady osvědčených postupů pro určování autorství anonymních dokumentů a vytváříme nové. Již existující a používané techniky kombinujeme, optimalizujeme a inovujeme pro tři hlavní úlohy: Automatické přiřazení autora podle dané množiny autorských dokumentů, Verifikace autorství daného dokumentu vybraným autorem, Shlukování dokumentů podle autorství. Námi implementované algoritmy jsou testovány na češtině, systém je však navržen modulárně a pokud vypustíme či nahradíme několik jazykově závislých komponent, lze v tuto chvíli pracovat s dokumenty napsanými v libovolném jazyce. Vše je naprogramováno ve skriptovacím jazyce Python. Součástí systému jsou i nástroje pro předzpracování vstupních dat pro češtinu a jejich správu v databázi PostgreSQL. Dalším přínosem práce kromě vývoje systému pro řešení tří zmíněných úloh jsou empiricky podložená pozorování, jak se chovají nejpoužívanější algoritmy na určování autorství dokumentů na dokumentech v češtině. Dosud se většina měření prováděla na anglicky psaných textech (knihy, novinové články, zřídka e-maily) a chyběla možnost srovnání při vývoji aplikací pro češtinu a jí podobné jazyky.

Anotace anglicky

Master's thesis. The work is based on the most successful methods for determining authorship of anonymous documents. We combine, optimize and revise these methods and create new techniques for three main tasks: Automatic assignment of the authorship with the given set of documents, Verification of the authorship of the document by selected author, Clustering of documents according to their authorships. Our implemented algorithms are tested on the Czech documents, but system is modular and if we remove or replace some language-dependent components, we can process documents written in any language. Everything is coded in the Python. The system contains tools for preprocessing of Czech data and for management of stored documents in the PostgreSQL database. The thesis also makes empirical observations of performance of the most popular methods for determining authorship of Czech documents. Most measurements were performed on English texts (books, newspaper articles, rarely e-mails) and until now the statistics for Czech data were missing.

Návaznosti
LC536, projekt VaV	Název: Centrum komputační lingvistiky
LC536, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
VF20102014003, projekt VaV	Název: Analýza přirozeného jazyka v prostředí internetu (Akronym: APJI)
VF20102014003, projekt VaV	Investor: Ministerstvo vnitra ČR, Analýza přirozeného jazyka v prostředí internetu

VytisknoutZobrazeno: 13. 10. 2024 19:36

Určování autorství anonymních textů na základě automaticky nalezených charakteristických znaků

Další aplikace