Diplomová práce

SW nástroj pre detekciu duplicit v textoch

SW detection of duplicates in texts

Bc. Róbert Dudáš
Anotace

Diplomová práca sa zaoberá návrhom a vytvorením aplikácie pre určenie duplicít lekárskych správ. Hlavným účelom je odhaliť podvody v poisťovníctve na základe podobnosti s inými textami.Prvá kapitola uvádza čitateľa do problematiky poistných podvodov. Ďalšia kapitola obsahuje popis základných princípov podobnosti textu, rozoberanie techník hľadania podobnosti a analýzu výkonu miery podobnosti. Nasledujúca …více

Abstract

My Master's thesis includes a design and a creation of application, which aim is to identify duplication of medical records. The main purpose is to detect insurance frauds based on similarities with other texts. The first chapter enlightens readers with insurance frauds. The next chapter contains descriptions of basic principles of similarity of the text, analyzes of searching similarities techniques …více

Zadání práce
Popsat současné techniky hledání duplicit (shod) v textových dokumentech. Zaměřit se zejména na texty v českém a slovenském jazyce, které jsou v maximálním rozsahu malých jednotek normostran. Definovat vlastní kritéria a na jejich základě najít vhodný způsob (algoritmus) pro hledání duplicit ve větších množinách krátkých textů. Následně navrhnout a ve formě funkčního prototypu implementovat softwarový nástroj, který bude realizovat vyhledávací úlohy typu "každý s každým", "jeden proti více", "množina proti množině" nad řádově tisíci odborných textů. Vytvořený nástroj bude kompatibilní s OpenJDK, bude vhodně kvantifikovat míru nalezené shody a se svým okolím bude komunikovat skrze webové služby (REST API). Součástí práce je i provedení dostatečného počtu měření výkonu SW, který zohlední velikost vstupní množiny, čas výpočtu a spolehlivost výsledku. Bude vytvořena programátorská a instalační dokumentace.
Práce zkontrolována:
15. 9. 2020 06:43, RNDr. Jaroslav Ráček, Ph.D., učo 3444
Jazyk práce
slovenština slovenština
Termín obhajoby
16. 9. 2020
Práce byla úspěšně obhájena

Vedoucí

RNDr. Jaroslav Ráček, Ph.D., učo 3444
KPSK FI MU

Oponent

Mgr. Jan Schuma, učo 98629
abs FI MU

Masarykova univerzita Fakulta informatiky
Studijní program
Aplikovaná informatika
  • Přidání souboru

    Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
  • Další operace se soubory

    Podrobnosti lze zjistit označením příslušného řádku.
  • Pohled pro experty

    Pro častou práci je možné zvolit režim Více možností.
  • Vyhledávání souborů

    Vyhledávaný výraz můžete zadat přímo do adresního řádku.
  • Rychlý přístup k souborům

    Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.