D 2002

A Metric Index for Approximate Text Management

DOHNAL, Vlastislav, Claudio GENNARO a Pavel ZEZULA

Základní údaje

Originální název

A Metric Index for Approximate Text Management

Název česky

Metrický index pro podobnostní zpracování textů

Autoři

DOHNAL, Vlastislav (203 Česká republika), Claudio GENNARO (380 Itálie) a Pavel ZEZULA (203 Česká republika, garant)

Vydání

Anaheim - Calgary - Zurich, Information Systems and Databases, s. 37-42, 2002

Nakladatel

ACTA Press

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10000 1. Natural Sciences

Stát vydavatele

Japonsko

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14330/02:00006447

Organizační jednotka

Fakulta informatiky

ISBN

0-88986-362-8

Klíčová slova anglicky

metric data; similarity search; index structures; similarity join

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 22. 10. 2010 16:10, doc. RNDr. Vlastislav Dohnal, Ph.D.

Anotace

V originále

Text collections of data need not only search support for identical objects, but approximate matching is even more important. A suitable metric for such a task is the edit distance measure. However, the quadratic complexity of the edit distance prevents from applying storage organizations such as the sequential search. We have investigated the properties of the D-index to approximate searching and matching of text databases.

Česky

Zpracování textových dat nevyžaduje pouze vyhledání identických objektů, ale také podobnostní hledání. Vhodnou metrikou pro podobnostní hledání v textech je editační vzdálenost, jejíž výpočetní náročnost vylučuje použití souborových organizací typu sekvenční soubor. Pro podobnostní hledání v textech aplikujeme strukturu D-Index a zkoumáme její vlastnosti.

Návaznosti

MSM 143300004, záměr
Název: Digitální knihovny
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Digitální knihovny