2025
Retrieving Semantically Similar Decisions under Noisy Institutional Labels: Robust Comparison of Embedding Methods
NOVOTNÁ, Tereza a Jakub HARAŠTAZákladní údaje
Originální název
Retrieving Semantically Similar Decisions under Noisy Institutional Labels: Robust Comparison of Embedding Methods
Autoři
Vydání
arXiv, arXiv:2512.05681, 2025
Další údaje
Jazyk
angličtina
Typ výsledku
Publikace v odborném periodiku – kromě recenzovaných typů article, review a letter
Obor
50501 Law
Stát vydavatele
Spojené státy
Utajení
není předmětem státního či obchodního tajemství
Odkazy
Označené pro přenos do RIV
Ne
Organizační jednotka
Právnická fakulta
Klíčová slova anglicky
legal information retrieval; case law; embeddings; evaluation under noisy labels; Czech Constitutional Court
Příznaky
Mezinárodní význam
Změněno: 27. 1. 2026 14:25, JUDr. Mgr. Jakub Harašta, Ph.D.
Anotace
V originále
Retrieving case law is a time-consuming task predominantly carried out by querying databases. We provide a comparison of two models in three different settings for Czech Constitutional Court decisions: (i) a large general-purpose embedder (OpenAI), (ii) a domain-specific BERT-trained from scratch on ~30,000 decisions using sliding windows and attention pooling. We propose a noise-aware evaluation including IDF-weighted keyword overlap as graded relevance, binarization via two thresholds (0.20 balanced, 0.28 strict), significance via paired bootstrap, and an nDCG diagnosis supported with qualitative analysis. Despite modest absolute nDCG (expected under noisy labels), the general OpenAI embedder decisively outperforms the domain pre-trained BERT in both settings at @10/@20/@100 across both thresholds; differences are statistically significant. Diagnostics attribute low absolutes to label drift and strong ideals rather than lack of utility. Additionally, our framework is robust enough to be used for evaluation under a noisy gold dataset, which is typical when handling data with heterogeneous labels stemming from legacy judicial databases.
Návaznosti
| MPO 60273/24/21300/21000, interní kód MU |
| ||
| MUNI/G/1142/2022, interní kód MU |
|