BOYTSOV, Leonid, David NOVÁK, Yury MALKOV a Eric NYBERG. Off the Beaten Path: Let's Replace Term-Based Retrieval with k-NN Search. In CIKM'16: PROCEEDINGS OF THE 2016 ACM CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT. NEW YORK: ASSOC COMPUTING MACHINERY, 2016, s. 1099-1108. ISBN 978-1-4503-4073-1. Dostupné z: https://dx.doi.org/10.1145/2983323.2983815.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Off the Beaten Path: Let's Replace Term-Based Retrieval with k-NN Search
Autoři BOYTSOV, Leonid (840 Spojené státy), David NOVÁK (203 Česká republika, garant, domácí), Yury MALKOV (643 Rusko) a Eric NYBERG (840 Spojené státy).
Vydání NEW YORK, CIKM'16: PROCEEDINGS OF THE 2016 ACM CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT, od s. 1099-1108, 10 s. 2016.
Nakladatel ASSOC COMPUTING MACHINERY
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Spojené státy
Utajení není předmětem státního či obchodního tajemství
Forma vydání paměťový nosič (CD, DVD, flash disk)
Kód RIV RIV/00216224:14330/16:00088811
Organizační jednotka Fakulta informatiky
ISBN 978-1-4503-4073-1
Doi http://dx.doi.org/10.1145/2983323.2983815
UT WoS 000390890800113
Klíčová slova anglicky k-NN search; IBM Model 1; non-metric spaces; LSH
Štítky core_A, DISA, firank_A
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. David Novák, Ph.D., učo 4335. Změněno: 7. 4. 2017 15:22.
Anotace
Retrieval pipelines commonly rely on a term-based search to obtain candidate records, which are subsequently re-ranked. Some candidates are missed by this approach, e.g., due to a vocabulary mismatch. We address this issue by replacing the term-based search with a generic k-NN retrieval algorithm, where a similarity function can take into account subtle term associations. While an exact brute-force k-NN search using this similarity function is slow, we demonstrate that an approximate algorithm can be nearly two orders of magnitude faster at the expense of only a small loss in accuracy. A retrieval pipeline using an approximate k-NN search can be more effective and efficient than the term-based pipeline. This opens up new possibilities for designing effective retrieval pipelines. Our software (including data-generating code) and derivative data based on the Stack Overflow collection is available online.(1)
Návaznosti
GBP103/12/G084, projekt VaVNázev: Centrum pro multi-modální interpretaci dat velkého rozsahu
Investor: Grantová agentura ČR, Centrum pro multi-modální interpretaci dat velkého rozsahu
VytisknoutZobrazeno: 21. 7. 2024 19:21