Bakalářská práce

Authorship Identification

Adam Karásek
Anotace

V posledních letech byla navržena řada moderních modelů pro identifikaci autorství využívajících rozličné techniky reprezentace textu a různé klasifikační algoritmy. Problém nesrovnatelnosti těchto modelů vyplývá z rozdílných datových sad používaných pro jejich vyhodnocení a z odlišných metod předzpracování použitých datových sad. Tato bakalářská práce řeší daný problém implementací tří vybraných modelů …více

Abstract

Numerous state-of-the-art models for authorship identification utilizing diverse text embedding techniques and classification algorithms have been proposed in recent years. However, the lack of comparability arises from disparate datasets used for evaluation and different preprocessing methods employed in these models. This study addresses the issue by implementing three chosen models, each employing …více

Zadání práce
Authorship identification in the context of this thesis is a classification task that assigns a human-written digital text to an author from a known set of authors. There are many different state-of-the-art algorithms for classifying authors of text based on different classification algorithms and text processing techniques. However, papers proposing these solutions often provide their evaluation only on one selected dataset. The research question is how robust the different algorithms on datasets of different types of text (e.g., emails, articles, or instant messages) are. The aim of the thesis is to implement three selected algorithms and compare their performance on two or three selected datasets. The resulting evaluation will indicate which of these algorithms has the best performance regardless of the nature of the dataset. The thesis is done within the Natural Language Processing Centre (NLPC) in cooperation with Konica Minolta.
Práce zkontrolována:
20. 12. 2023 09:23, RNDr. Zuzana Nevěřilová, Ph.D., učo 3839
Jazyk práce
angličtina angličtina
Termín obhajoby
15. 2. 2024
Práce byla úspěšně obhájena

Vedoucí

RNDr. Zuzana Nevěřilová, Ph.D., učo 3839
KSUZD FI MU

Oponent

doc. RNDr. Aleš Horák, Ph.D., učo 1648
KSUZD FI MU

  • Přidání souboru

    Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
  • Další operace se soubory

    Podrobnosti lze zjistit označením příslušného řádku.
  • Pohled pro experty

    Pro častou práci je možné zvolit režim Více možností.
  • Vyhledávání souborů

    Vyhledávaný výraz můžete zadat přímo do adresního řádku.
  • Rychlý přístup k souborům

    Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.