JAKUBÍČEK, Miloš, Pavel ŠMERK a Pavel RYCHLÝ. Fast Construction of a Word-Number Index for Large Data. In A. Horák, P. Rychlý. RASLAN 2013 Recent Advances in Slavonic Natural Language Processing. Brno: Tribun EU. s. 63-67. ISBN 978-80-263-0520-0. 2013.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Fast Construction of a Word-Number Index for Large Data
Autoři JAKUBÍČEK, Miloš (203 Česká republika, garant, domácí), Pavel ŠMERK (203 Česká republika, domácí) a Pavel RYCHLÝ (203 Česká republika, domácí).
Vydání Brno, RASLAN 2013 Recent Advances in Slavonic Natural Language Processing, od s. 63-67, 5 s. 2013.
Nakladatel Tribun EU
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW URL
Kód RIV RIV/00216224:14330/13:00070327
Organizační jednotka Fakulta informatiky
ISBN 978-80-263-0520-0
Klíčová slova anglicky word to number index; number to word index; finite state automata; hat-trie
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 21. 5. 2021 23:13.
Anotace
The paper presents a work still in progress, but with promising results. We offer a new method of construction of word to number and number to word indices for very large corpus data (tens of billions of tokens), which is up to an order of magnitude faster than the current approach. We use HAT-trie for sorting the data and Daciuk’s algorithm for building a minimal deterministic finite state automaton from sorted data. The latter we reimplemented and our new implementation is roughly three times faster and with smaller memory footprint than the one of Daciuk. This is useful not only for building word-number indices, but also for many other applications, e.g. building data for morphological analysers.
Návaznosti
LM2010013, projekt VaVNázev: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum
VytisknoutZobrazeno: 20. 4. 2024 01:31