Informační systém Masarykovy univerzity 

Archiv závěrečné práce Jan Kasprzak FI Rig-IN IN, učo 1885

česky | in English

Změnit agendu. Adresa v ISu:

RNDr. Jan Kasprzak, učo 1885

Systems for Discovering Similar Documents

Systems for Discovering Similar Documents

Anotace: S širší dostupností elektronických textů v poslední době se také stalo jednodušším používat práci jiných bez korektní citace. Naštěstí nedávný vývoj v oblasti detekce překryvu dokumentů (a obecně v oblasti objevování podobných dokumentů) může usnadnit také objevení plagiátů. Algoritmy pro nalezení podobných dokumentů mají také další způsoby užití, zejména v oblasti fulltextových vyhledávačů: jednak pro odstranění úplných duplikátů, a jednak pro zabránění několika důležitým ale podobným dokumentům v tom, aby zabraly pro sebe celou první stranu vyhledaných výsledků. Navrhovaná disertační práce vyhodnotí přístupy k objevování podobných dokumentů, zejména pomocí detekce překryvu dokumentů, a ověří, které z nich jsou vhodné pro velké množiny dokumentů. Také se zaměří na praktické aspekty implementace na clusteru samostatných počítačů, a na použití v produkčním prostředí Informačního systému Masarykovy univerzity.

Abstract: With the wider availability of the electronic texts in the recent years, it has also became easier to use work of other people without the appropriate citation. Fortunately, recent developments in the area of detecting document overlap (and in general, discovery of similar documents), can also make it easier to discover the plagiarized work. The algorithms for discovering similar documents have also other uses, especially in the area of full-text search engines: either for removing duplicate documents altogether, or for preventing a subset of important but similar documents to occupy the whole first page of the search results. This proposed Ph.D. thesis will evaluate the approaches for the discovery of similar documents, especially by detecting document overlap, and verify which of them are suitable for large sets of documents. It will also focus on aspects of practical implementation on a distributed cluster of standalone computers, and usage in a production environment of the Masaryk University Information System.

similar documents, document overlap detection, plagiarism, natural language processing, distributed computing

Jazyk práce: angličtina

  • Zadáno/změněno 18. 1. 2010 10:52, Ada Nazarejová, učo 215785
  • Záznam založen: 4. 12. 2009 12:14, Ada Nazarejová, učo 215785
  • Zveřejnit od: 15. 12. 2009 15:38, Ada Nazarejová, učo 215785
  • Práce převzata 15. 12. 2009 15:38 (Ada Nazarejová, učo 215785)

Obhajoba závěrečné práce

  • proběhla 15. 1. 2010, práce byla úspěšně obhájena.
  • Administrativní kontrola:
    • doc. Ing. Michal Brandejs, CSc., učo 2116, CVT FI MU , Centrum výpočetní techniky - Fakulta informatiky
  • Oponenti:
    • doc. Ing. Karel Ježek, CSc., učo 112678 , KIV ZČU v Plzni
    • doc. PhDr. Karel Pala, CSc., učo 455, KIT FI MU , Katedra informačních technologií - Fakulta informatiky

  • Předmět SZZ: Obhajoba rigorózní práce

Kontrola závěrečné práce

Práce zkontrolována: 15. 12. 2009 17:40, doc. Ing. Michal Brandejs, CSc., učo 2116


Nástroje.Seřadit vzestupně.Seřadit sestupně. Spočítat nepřečtené soubory ve složkách. Spočítat velikost složek. Zobrazit mapu souborů. Napřed složky, pak soubory.Seřadit vzestupně.Seřadit sestupně. Složka či souborSeřadit vzestupně.Seřadit sestupně. Vložil/aSeřadit vzestupně.Seřadit sestupně. VloženoSeřadit vzestupně.Seřadit sestupně. Expirace: Seřadit vzestupně.Expirace: Seřadit sestupně.
Nástroje.  Archiv závěrečné práce Jan Kasprzak FI Rig-IN IN, učo 1885 /fi_r/Kasprzak, J.10. 12. 2009
Číst smí:
• kdokoliv v Internetu
Nikdo nemá právo vkládat.Nikdo nemá právo spravovat.Žádný atribut.
Nástroje. Systems for Discovering Similar Documents thesisproposal.pdfKasprzak, J.10. 12. 2009
Číst smí:
• kdokoliv v Internetu
Nikdo nemá právo vkládat.Nikdo nemá právo spravovat.Žádný atribut.
Pořadí 1
Nástroje. Distributed System for Discovering Similar Documents iceis-paper.pdfKasprzak, J.10. 12. 2009
Číst smí:
• kdokoliv v Internetu
Nikdo nemá právo vkládat.Nikdo nemá právo spravovat.Žádný atribut.
Pořadí 2
Nástroje. Distributed Aspects of the System for Discovering Similar Docs ita09-paper.pdfKasprzak, J.10. 12. 2009
Číst smí:
• kdokoliv v Internetu
Nikdo nemá právo vkládat.Nikdo nemá právo spravovat.Žádný atribut.
Pořadí 3
Nástroje. Finding Plagiarism by Evaluating Document Similarities pan09-paper.pdfKasprzak, J.10. 12. 2009
Číst smí:
• kdokoliv v Internetu
Nikdo nemá právo vkládat.Nikdo nemá právo spravovat.Žádný atribut.
Pořadí 4
Nástroje.Anotace anglicky annotation_english.txtKasprzak, J.10. 12. 2009
Číst smí:
• kdokoliv v Internetu
Nikdo nemá právo vkládat.Nikdo nemá právo spravovat.Žádný atribut.
Nástroje.Anotace česky annotation.txtKasprzak, J.10. 12. 2009
Číst smí:
• kdokoliv v Internetu
Nikdo nemá právo vkládat.Nikdo nemá právo spravovat.Žádný atribut.
Nástroje.Klíčová slova keywords.txtKasprzak, J.10. 12. 2009
Číst smí:
• kdokoliv v Internetu
Nikdo nemá právo vkládat.Nikdo nemá právo spravovat.Žádný atribut.
Nástroje. oponentský posudek doc.Jezek.pdfNazarejová, A.14. 12. 2009
Číst smí:
• kdokoliv v Internetu
Nikdo nemá právo vkládat.Nikdo nemá právo spravovat.Žádný atribut.
Nástroje. oponentský posudek doc.Pala.pdfNazarejová, A.14. 12. 2009
Číst smí:
• kdokoliv v Internetu
Nikdo nemá právo vkládat.Nikdo nemá právo spravovat.Žádný atribut.
Prohlédnout tuto složku po přihlášení do ISu (znáte-li svoje heslo do ISu, můžete zde vidět více souborů)

Relevantní odkazy 


Nahoru | Aktuální datum a čas: 18. 3. 2010 19:28, 11. (lichý) týden

Kontakty: isna(zavináč/atsign)fi(tečka/dot)muni(tečka/dot)cz, studijní odd., správci práv, is-technici, e-technici, IT podpora | Více o informačním systému