HERMAN, Ondřej. Blooming Onion: Efficient Deduplication through Approximate Membership Testing. In Aleš Horák, Pavel Rychlý, Adam Rambousek. Proceedings of the Sixteenth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2022. Brno: Tribun EU, 2022, s. 91-95. ISBN 978-80-263-1752-4.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Blooming Onion: Efficient Deduplication through Approximate Membership Testing
Autoři HERMAN, Ondřej (203 Česká republika, garant, domácí).
Vydání Brno, Proceedings of the Sixteenth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2022, od s. 91-95, 5 s. 2022.
Nakladatel Tribun EU
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10200 1.2 Computer and information sciences
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW Plný text Domovská stránka workshopu
Kód RIV RIV/00216224:14330/22:00127485
Organizační jednotka Fakulta informatiky
ISBN 978-80-263-1752-4
ISSN 2336-4289
Klíčová slova anglicky deduplication; text corpora; Bloom filter
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 15. 5. 2024 09:54.
Anotace
Deduplication of source text is an important step in corpus building. Maximum corpus sizes have been grown significantly, along with the requirements for computing resources required for processing them. This article explores reducing the cost of deduplication by applying approximate membership testing using Bloom filtering.
Návaznosti
LM2018101, projekt VaVNázev: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy
VytisknoutZobrazeno: 19. 7. 2024 12:25