D 2022

Blooming Onion: Efficient Deduplication through Approximate Membership Testing

HERMAN, Ondřej

Základní údaje

Originální název

Blooming Onion: Efficient Deduplication through Approximate Membership Testing

Autoři

HERMAN, Ondřej (203 Česká republika, garant, domácí)

Vydání

Brno, Proceedings of the Sixteenth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2022, od s. 91-95, 5 s. 2022

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10200 1.2 Computer and information sciences

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Kód RIV

RIV/00216224:14330/22:00127485

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-1752-4

ISSN

EID Scopus

2-s2.0-85171459449

Klíčová slova anglicky

deduplication; text corpora; Bloom filter
Změněno: 15. 5. 2024 09:54, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

Deduplication of source text is an important step in corpus building. Maximum corpus sizes have been grown significantly, along with the requirements for computing resources required for processing them. This article explores reducing the cost of deduplication by applying approximate membership testing using Bloom filtering.

Návaznosti

LM2018101, projekt VaV
Název: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy