MV926K Umělá inteligence v právní praxi
Neviditelné a užitečné:
Datová problematika právních
informačních systémů
Tereza Novotná
2
Osnova
1. Motivace
2. Právní informace a data – legislativa
3. Právní informace a data – judikatura
4. Právní informace jako základ pro PIS
1. Korpusy či datasety právních informací
2. NLP metody zpracování dat
3. Natrénování modelu
4. Připojení uživatelského rozhraní
5. Příklady dobré praxe ze zahraničí
6. Právní informace dostupné v ČR – korpusy a datasety
7. Use case – příklad ChatGPT a řešení právní otázky
3
Motivace
̶ Důležitost právních dat a informací - conditio sine qua non pro
jakýkoliv právní informační systém
̶ Z právního hlediska: povinnost seznámit se s právními pravidly a
následovat je (neznalost zákona neomlouvá) vs. nesnadný přístup
k právním pramenům a velké množství pramenů
̶ Řešení: Dostupné pokročilé metody (založené nejen na AI) s
potenciálem zlepšit přístup a vyhledávání (právních) informací
4
Právní informace a data - legislativa
̶ Data vs. Informace
̶ Co jsou?
̶ Primární, sekundární prameny - jejich TEXT
̶ Data a metadata (objektivní, subjektivní)
̶ Kde se berou?
̶ Legislativní proces ústí do publikačního procesu
̶ Promulgace práva v ČR: zákon o sbírce zákonů a mezinárodních smluv č. 309/1999 Sb.,
promulgace skrz fyzickou sbírku zákonů, k nahlédnutí na úřadech
̶ Nový zákon o sbírce zákonů a mezinárodních smluv č. 222/2016 Sb. – několikrát odložená
účinnost, počítá s elektronickou sbírkou
5
Právní informace a data - judikatura
̶ Publikace judikatury na stránkách soudů (NS, NSS, ÚS)
̶ Publikace judikatury nižších soudů online – povinnost od července
minulého roku na justice.cz
̶ Webové databáze neúplné, nedokonalé vyhledávací možnosti
̶ Sbírky rozhodnutí NS, NSS a ÚS
̶ Proč je důležitý hromadný přístup k právním datům?
6
Právní informace jako základ pro PIS
̶ Informace musí být v systému obsažena vs. informace musí být v
systému vyhledatelná (otázka existence informace vs. otázka
zpracování informací pro vyhledávání)
̶ Relevance vyhledávaných informací
̶ Intuitivnost vyhledávacích metod a uživatelského rozhraní
7
Právní informace jako základ PIS
̶ Pokročilé metody zpracování textu – natural language processing
(NLP) jsou závislé na dostupných textových datech
̶ NLP metody jsou nejčastěji založené na strojovém učení, které je
přímo závislé na velikosti a kvalitě textových dat
8
Právní informace jako základ PIS
1. Korpusy či datasety právních informací (velikost, kvalita, úplnost atd.)
2. NLP metoda zpracování dat
3. Natrénování modelu
4. Připojení uživatelského rozhraní
9
1. Korpusy či datasety právních informací
̶ Data
̶ strukturovaná, semistrukturovaná, nestrukturovaná
̶ Anotovaná, neanotovaná, anonymizovaná
̶ Text (celý dokument), segmenty, metadata
̶ Datové formáty
̶ XML
̶ CSV
̶ TXT
̶ Dostupnost a přístup k datům
̶ API
̶ Hromadné stažení
̶ RSS kanály
̶ Problém s obecnou nedostupností právních dat u nás
10
2. NLP metoda zpracování dat
̶ Cíl zpracování textu: kategorizace, tematické členění,
vyhledávání, návrhy podobných dokumentů, sumarizace,
generování textu
̶ Dělení metod: supervidované, semisupervidované,
nesupervidované
̶ Otázka manuálního zpracování či manuální evaluace (proto je
ChatGPT o tolik lepší než předchozí modely)
11
3. Natrénování modelu
̶ Předzpracování textu (tokenizace, tagování, anotování manuální
či automatické, určení slovních druhů, vyjmutí určitých slov atd.)
̶ Samotné trénování modelu – dle metody, dnes se používají
nejčastěji metody založené na pravděpodobnosti výskytu slov
vedle sebe v textu
̶ Definování parametrů, trénování
12
4. Uživatelské rozhraní
̶ Intuitivnost
̶ Interakce s uživatelem
̶ Sběr zpětných dat a jejich užití pro zpřesnění metody a
přetrénování modelu (evaluace, uživatelská data, dotazníky atd.)
̶ Cena za službu „zdarma“
13
Příklady z (různě dobré) praxe
̶ CanLII
̶ Légifrance
̶ Harvey
̶ LexisNexis
14
Datasety a modely dostupné u nás
̶ Czech Court Decisions Corpus
̶ Czech Court Citations Dataset
̶ Manuálně anotované datasety pro segmentaci a extrakci citací:
̶ Annotated Corpus of Czech Case Law for Reference Recognition Tasks
̶ Annotated Corpus of Czech Case Law for Segmentation Tasks
̶ LDA a NMF model pro tematické modelování českých soudních
rozhodnutí (github stránka)
15
Use case - ChatGPT
̶ Generativní model
̶ Vycházející z dat, která mu byla poskytnuta při trénování
̶ Problematické odpovídání na konkrétní právní otázky
̶ Obecnější problém právního jazyka:
̶ Dostupnost datasetů
̶ Interpretace textu
̶ Sémantika textu
̶ Synonyma
16
Use case - ChatGPT
17
Děkuji za pozornost.
Budete-li mít nějakou otázku, obraťte se na mě prosím na: tereza.novotna@law.muni.cz a nebo přijďte na
konzultační hodiny!