2016
ScaleText: The Design of a Scalable, Adaptable and User-Friendly Document System for Similarity Searches : Digging for Nuggets of Wisdom in Text
RYGL, Jan, Petr SOJKA, Michal RŮŽIČKA a Radim ŘEHŮŘEKZákladní údaje
Originální název
ScaleText: The Design of a Scalable, Adaptable and User-Friendly Document System for Similarity Searches : Digging for Nuggets of Wisdom in Text
Autoři
RYGL, Jan (203 Česká republika), Petr SOJKA (203 Česká republika, garant, domácí), Michal RŮŽIČKA (203 Česká republika, domácí) a Radim ŘEHŮŘEK (203 Česká republika)
Vydání
Brno, Proceedings of the Tenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2016, od s. 79-87, 9 s. 2016
Nakladatel
Tribun EU
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Kód RIV
RIV/00216224:14330/16:00087632
Organizační jednotka
Fakulta informatiky
ISBN
978-80-263-1095-2
ISSN
UT WoS
000466886400009
Klíčová slova česky
ScaleText; modelování vektorovým prostorem; latentní sémantické indexování; LSI; strojové učení; škálovatelné vyhledávání; návrh vyhledávače; dolování textu
Klíčová slova anglicky
ScaleText; vector space modelling; Latent Semantic Indexing; LSI; machine learning; scalable search; search system design; text mining
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 13. 5. 2020 19:39, RNDr. Pavel Šmerk, Ph.D.
Anotace
V originále
This paper describes the design of a new ScaleText system aimed at scalable semantic indexing of heterogeneous textual corpora. We discuss the design decisions that lead to a modular system architecture for indexing and searching using semantic vectors of document segments – nuggets of wisdom. The prototype system implementation is evaluated by applying Latent Semantic Indexing (LSI) on the Enron corpus. And the Bpref measure is used to automate comparing the performance of different algorithms and system configurations.
Návaznosti
MUNI/A/0892/2015, interní kód MU |
| ||
TD03000295, projekt VaV |
|