2025
Comparison of Embedding Methods for Retrieval Under Noisy Institutional Labels
NOVOTNÁ, Tereza a Jakub HARAŠTAZákladní údaje
Originální název
Comparison of Embedding Methods for Retrieval Under Noisy Institutional Labels
Autoři
Vydání
Amsterdam, JURIX 2025 Proceedings (Frontiers in Artificial Intelligence and Applications, volume 416: Legal Knowledge and Information Systems), od s. 324-329, 6 s. 2025
Nakladatel
IOS Press
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
50501 Law
Stát vydavatele
Nizozemské království
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
elektronická verze "online"
Odkazy
Označené pro přenos do RIV
Ano
Kód RIV
RIV/00216224:14220/25:00142844
Organizační jednotka
Právnická fakulta
ISBN
978-1-64368-638-7
UT WoS
EID Scopus
Klíčová slova anglicky
legal information retrieval; case law; embeddings; evaluation; noisy labels; Czech Constitutional Court
Štítky
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 16. 3. 2026 14:45, JUDr. Mgr. Jakub Harašta, Ph.D.
Anotace
V originále
Retrieving relevant case law remains a time-consuming task. We compare two embedding models for Czech Constitutional Court decisions: (i) a large general-purpose OpenAI embedder and (ii) a domain-specific BERT trained from scratch on ∼34,000 decisions. We introduce a noise-aware evaluation using IDF-weighted keyword overlap as graded relevance, dual thresholds (0.20, 0.28), paired-bootstrap significance, and nDCG diagnostics. Despite conservative absolute nDCG due to noisy institutional labels, the OpenAI embedder consistently and significantly outperforms the domain BERT across all ranks and thresholds. Our framework enables robust evaluation under imperfect gold standards typical of legacy judicial databases.
Návaznosti
| MPO 60273/24/21300/21000, interní kód MU |
| ||
| MUNI/G/1142/2022, interní kód MU |
|