RYGL, Jan a Marek MEDVEĎ. Style Markers Based on Stop-word List. Online. In Eighth Workshop on Recent Advances in Slavonic Natural Language Processing. Brno: Tribun EU, 2014. s. 85-89. ISSN 2336-4289. [citováno 2024-04-24]
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Style Markers Based on Stop-word List
Autoři RYGL, Jan (203 Česká republika, garant, domácí) a Marek MEDVEĎ (703 Slovensko, domácí)
Vydání Brno, Eighth Workshop on Recent Advances in Slavonic Natural Language Processing, od s. 85-89, 5 s. 2014.
Nakladatel Tribun EU
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW paper
Kód RIV RIV/00216224:14330/14:00077516
Organizační jednotka Fakulta informatiky
ISSN 2336-4289
Klíčová slova anglicky style marker; stop-word list; corpus
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Jan Rygl, učo 208072. Změněno: 26. 5. 2021 18:08.
Anotace
The analysis of author’s characteristic writing style and vocabulary has been used to uncover the identity of authors of documents by both manual linguistic approaches and automatic algorithmic methods. The revealing of the gender, name, or age can help to expose pedophiles in social networks, false product reviews on the Internet servers, or machine translations submitted as manually translated texts. These problems are predominantly solved by a combination of stylometry and machine learning techniques. Since the stylometry focuses on the author’s style, word n-grams cannot be used as a style marker. Stop words are not influenced by a topic of documents, therefore they can be used to create style markers. In this paper, we present a guidance on how to implement stop-word extraction and to include stop-words based style markers into a multilingual classification system based on the stylometry.
Návaznosti
LM2010013, projekt VaVNázev: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum
VytisknoutZobrazeno: 24. 4. 2024 02:44