D 2025

Database and Corpora Creation within RapCor Project for Czech

NĚMCOVÁ POLICKÁ, Alena a Pavel RYCHLÝ

Základní údaje

Originální název

Database and Corpora Creation within RapCor Project for Czech

Vydání

Brno, Raslan 2025 : recent advances in slavonic natural language processing, od s. 137-144, 8 s. 2025

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

50902 Social sciences, interdisciplinary

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Označené pro přenos do RIV

Ano

Organizační jednotka

Filozofická fakulta

ISBN

978-80-263-1858-3

ISSN

EID Scopus

2-s2.0-105029936188

Klíčová slova anglicky

database; corpora; hip hop; RapCor; Czech

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 20. 2. 2026 09:07, Mgr. Ester Gaja Pučálková, Ph.D.

Anotace

V originále

This paper introduces the motivations and first results of the creation of Czech RapCor project, mainly the constitution process of Czech RapCor Boosted v1 (Czech RCB), a specialized corpus of Czech rap lyrics designed for sociolinguistic and NLP research. The corpus highlights distinctive linguistic features, such as written colloquialism, frequent use of vulgarisms, and non-standard forms, which pose challenges for traditional NLP tools. Preliminary results demonstrate the corpus’s potential for studying authentic spoken language in written form, offering insights into rap culture and sociolinguistic phenomena.

Návaznosti

90262, velká výzkumná infrastruktura
Název: LINDAT/CLARIAH-CZ II

Přiložené soubory