D 2016

Off the Beaten Path: Let's Replace Term-Based Retrieval with k-NN Search

BOYTSOV, Leonid, David NOVÁK, Yury MALKOV a Eric NYBERG

Základní údaje

Originální název

Off the Beaten Path: Let's Replace Term-Based Retrieval with k-NN Search

Autoři

BOYTSOV, Leonid (840 Spojené státy), David NOVÁK (203 Česká republika, garant, domácí), Yury MALKOV (643 Rusko) a Eric NYBERG (840 Spojené státy)

Vydání

NEW YORK, CIKM'16: PROCEEDINGS OF THE 2016 ACM CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT, od s. 1099-1108, 10 s. 2016

Nakladatel

ASSOC COMPUTING MACHINERY

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Spojené státy

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

paměťový nosič (CD, DVD, flash disk)

Kód RIV

RIV/00216224:14330/16:00088811

Organizační jednotka

Fakulta informatiky

ISBN

978-1-4503-4073-1

DOI

http://dx.doi.org/10.1145/2983323.2983815

UT WoS

000390890800113

Klíčová slova anglicky

k-NN search; IBM Model 1; non-metric spaces; LSH

Štítky

core_A, DISA, firank_A

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 7. 4. 2017 15:22, RNDr. David Novák, Ph.D.

Anotace

V originále

Retrieval pipelines commonly rely on a term-based search to obtain candidate records, which are subsequently re-ranked. Some candidates are missed by this approach, e.g., due to a vocabulary mismatch. We address this issue by replacing the term-based search with a generic k-NN retrieval algorithm, where a similarity function can take into account subtle term associations. While an exact brute-force k-NN search using this similarity function is slow, we demonstrate that an approximate algorithm can be nearly two orders of magnitude faster at the expense of only a small loss in accuracy. A retrieval pipeline using an approximate k-NN search can be more effective and efficient than the term-based pipeline. This opens up new possibilities for designing effective retrieval pipelines. Our software (including data-generating code) and derivative data based on the Stack Overflow collection is available online.(1)

Návaznosti

GBP103/12/G084, projekt VaV
Název: Centrum pro multi-modální interpretaci dat velkého rozsahu
Investor: Grantová agentura ČR, Centrum pro multi-modální interpretaci dat velkého rozsahu
Zobrazeno: 17. 11. 2024 12:54