KASPRZAK, Jan. Systems for Discovering Similar Documents. Brno. 20 s. 2010.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Systems for Discovering Similar Documents
Název česky Systémy pro odhalování podobných dokumentů
Autoři KASPRZAK, Jan.
Vydání Brno, 20 s. 2010.
Další údaje
Originální jazyk angličtina
Typ výsledku Odborná kniha
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
WWW URL
Organizační jednotka Fakulta informatiky
Klíčová slova česky podobné dokumenty; detekce překryvu dokumentů; plagiátorství; zpracování přirozeného jazyka; distribuované výpočty
Klíčová slova anglicky similar documents; document overlap detection; plagiarism; natural language processing; distributed computing
Štítky IS, Plagiarism
Změnil Změnil: RNDr. Jan Kasprzak, Ph.D., učo 1885. Změněno: 1. 7. 2010 15:24.
Anotace
With the wider availability of the electronic texts in the recent years, it has also became easier to use work of other people without the appropriate citation. Fortunately, recent developments in the area of detecting document overlap (and in general, discovery of similar documents), can also make it easier to discover the plagiarized work. The algorithms for discovering similar documents have also other uses, especially in the area of full-text search engines: either for removing duplicate documents altogether, or for preventing a subset of important but similar documents to occupy the whole first page of the search results. This proposed Ph.D. thesis will evaluate the approaches for the discovery of similar documents, especially by detecting document overlap, and verify which of them are suitable for large sets of documents. It will also focus on aspects of practical implementation on a distributed cluster of standalone computers, and usage in a production environment of the Masaryk University Information System.
Anotace česky
S širší dostupností elektronických textů v poslední době se také stalo jednodušším používat práci jiných bez korektní citace. Naštěstí nedávný vývoj v oblasti detekce překryvu dokumentů (a obecně v oblasti objevování podobných dokumentů) může usnadnit také objevení plagiátů. Algoritmy pro nalezení podobných dokumentů mají také další způsoby užití, zejména v oblasti fulltextových vyhledávačů: jednak pro odstranění úplných duplikátů, a jednak pro zabránění několika důležitým ale podobným dokumentům v tom, aby zabraly pro sebe celou první stranu vyhledaných výsledků. Navrhovaná disertační práce vyhodnotí přístupy k objevování podobných dokumentů, zejména pomocí detekce překryvu dokumentů, a ověří, které z nich jsou vhodné pro velké množiny dokumentů. Také se zaměří na praktické aspekty implementace na clusteru samostatných počítačů, a na použití v produkčním prostředí Informačního systému Masarykovy univerzity.
VytisknoutZobrazeno: 19. 4. 2024 22:33