Citation Data of Czech Apex Courts (preprint)

j 2020

Citation Data of Czech Apex Courts (preprint)

HARAŠTA, Jakub; Tereza NOVOTNÁ a Jaromír ŠAVELKA

Základní údaje

Originální název

Citation Data of Czech Apex Courts (preprint)

Autoři

HARAŠTA, Jakub ; Tereza NOVOTNÁ a Jaromír ŠAVELKA

Vydání

arXiv, arXiv:2002.02224, 2020

Další údaje

Jazyk

angličtina

Typ výsledku

Publikace v odborném periodiku – kromě recenzovaných typů article, review a letter

Obor

50500 5.5 Law

Stát vydavatele

Spojené státy

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Text (arXiv.org), Dataset (GitHub)

Označené pro přenos do RIV

Ne

Organizační jednotka

Právnická fakulta

EID Scopus

2-s2.0-85093207287

Klíčová slova anglicky

reference recognition; reference extraction; document segmentation; NLP pipeline; citation data; Supreme Court; Supreme Administrative Court; Constitutional Court; Czech Republic

Příznaky

Mezinárodní význam

Změněno: 18. 12. 2020 06:51, JUDr. Mgr. Jakub Harašta, Ph.D.

Anotace

V originále

In this paper, we introduce the citation data of the Czech apex courts (Supreme Court, Supreme Administrative Court and Constitutional Court). This dataset was automatically extracted from the corpus of texts of Czech court decisions - CzCDC 1.0. We obtained the citation data by building the natural language processing pipeline for extraction of the court decision identifiers. The pipeline included the (i) document segmentation model and the (ii) reference recognition model. Furthermore, the dataset was manually processed to achieve high-quality citation data as a base for subsequent qualitative and quantitative analyses. The dataset is available to the general public at GitHub.

Návaznosti

GA17-20645S, projekt VaV

Název: Exaktní hodnocení aplikační relevance judikatury

Investor: Grantová agentura ČR, Exaktní hodnocení aplikační relevance judikatury

Přehled o publikaci