Informační systém MU
RYGL, Jan, Petr SOJKA, Michal RŮŽIČKA a Radim ŘEHŮŘEK. ScaleText: The Design of a Scalable, Adaptable and User-Friendly Document System for Similarity Searches : Digging for Nuggets of Wisdom in Text. In Aleš Horák, Pavel Rychlý, Adam Rambousek. Proceedings of the Tenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2016. Brno: Tribun EU. s. 79-87. ISBN 978-80-263-1095-2. 2016.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název ScaleText: The Design of a Scalable, Adaptable and User-Friendly Document System for Similarity Searches : Digging for Nuggets of Wisdom in Text
Autoři RYGL, Jan (203 Česká republika), Petr SOJKA (203 Česká republika, garant, domácí), Michal RŮŽIČKA (203 Česká republika, domácí) a Radim ŘEHŮŘEK (203 Česká republika).
Vydání Brno, Proceedings of the Tenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2016, od s. 79-87, 9 s. 2016.
Nakladatel Tribun EU
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW Domovská stránka workshopu preprint
Kód RIV RIV/00216224:14330/16:00087632
Organizační jednotka Fakulta informatiky
ISBN 978-80-263-1095-2
ISSN 2336-4289
UT WoS 000466886400009
Klíčová slova česky ScaleText; modelování vektorovým prostorem; latentní sémantické indexování; LSI; strojové učení; škálovatelné vyhledávání; návrh vyhledávače; dolování textu
Klíčová slova anglicky ScaleText; vector space modelling; Latent Semantic Indexing; LSI; machine learning; scalable search; search system design; text mining
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 13. 5. 2020 19:39.
Anotace
This paper describes the design of a new ScaleText system aimed at scalable semantic indexing of heterogeneous textual corpora. We discuss the design decisions that lead to a modular system architecture for indexing and searching using semantic vectors of document segments – nuggets of wisdom. The prototype system implementation is evaluated by applying Latent Semantic Indexing (LSI) on the Enron corpus. And the Bpref measure is used to automate comparing the performance of different algorithms and system configurations.
Návaznosti
MUNI/A/0892/2015, interní kód MUNázev: Výzkum v aplikované informatice na FI MU (Akronym: VAIFIMU)
Investor: Masarykova univerzita, Výzkum v aplikované informatice na FI MU, DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
TD03000295, projekt VaVNázev: Inteligentní software pro sémantické hledání dokumentů (Akronym: ISSHD)
Investor: Technologická agentura ČR, Inteligentní software pro sémantické hledání dokumentů
Zobrazeno: 19. 4. 2024 14:37