D 2014

Heterogeneous Queries for Synoptic and Phrasal Search

SUCHOMEL, Šimon a Michal BRANDEJS

Základní údaje

Originální název

Heterogeneous Queries for Synoptic and Phrasal Search

Vydání

Sheffield, UK, CLEF2014 Working Notes, od s. 1017-1020, 4 s. 2014

Nakladatel

CEUR, Aachen University

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Německo

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Odkazy

Označené pro přenos do RIV

Ano

Kód RIV

RIV/00216224:14330/14:00077319

Organizační jednotka

Fakulta informatiky

ISSN

Klíčová slova anglicky

suspicious document; plagiarism detection; search engine; source retrieval; stop word; text alignment; snippet similarity;

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 28. 4. 2015 10:44, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

This paper describes our approaches for the Plagiarism Detection – Source Retrieval task of PAN 2014. We combined and improved methodology used at PAN 2012 and PAN 2013. Our system combines three types of queries: The keywords-based queries; the paragraph-based queries; and the headers-based queries. The queries are distinguished also by other properties such as the phrase query or the positional query. The queries are submitted to two search engines – Chatnoir and Indri – according to their properties. The query’s position serves for the search control, minimization of the total number of executed queries is the system’s priority. Downloaded documents are textually compared with the suspicious document and if a similarity is found, the downloaded document is reported.

Návaznosti

LG13010, projekt VaV
Název: Zastoupení ČR v European Research Consortium for Informatics and Mathematics (Akronym: ERCIM-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Zastoupení ČR v European Research Consortium for Informatics and Mathematics

Přiložené soubory