Informační systém Masarykovy univerzity 

ScaleText: The Design of a Scalable, Adaptable and User-Friendly Document System for Similarity ...

česky | in English

RYGL, Jan, Petr SOJKA, Michal RŮŽIČKA a Radim ŘEHŮŘEK. ScaleText: The Design of a Scalable, Adaptable and User-Friendly Document System for Similarity Searches : Digging for Nuggets of Wisdom in Text. In Aleš Horák, Pavel Rychlý, Adam Rambousek. Proceedings of the Tenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2016. Brno: Tribun EU, 2016. s. 79-87, 9 s. ISBN 978-80-263-1095-2.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název ScaleText: The Design of a Scalable, Adaptable and User-Friendly Document System for Similarity Searches : Digging for Nuggets of Wisdom in Text
Autoři RYGL, Jan (203 Česká republika), Petr SOJKA (203 Česká republika, garant, domácí), Michal RŮŽIČKA (203 Česká republika, domácí) a Radim ŘEHŮŘEK (203 Česká republika).
Vydání Brno, Proceedings of the Tenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2016, od s. 79-87, 9 s. 2016.
Nakladatel Tribun EU
Další údaje
Originální jazyk angličtina
Typ výsledku Článek ve sborníku
Obor Informatika
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW Domovská stránka workshopu preprint
Kód RIV RIV/00216224:14330/16:00087632
Organizační jednotka Fakulta informatiky
ISBN 978-80-263-1095-2
ISSN 2336-4289
Klíčová slova česky ScaleText; modelování vektorovým prostorem; latentní sémantické indexování; LSI; strojové učení; škálovatelné vyhledávání; návrh vyhledávače; dolování textu
Klíčová slova anglicky ScaleText; vector space modelling; Latent Semantic Indexing; LSI; machine learning; scalable search; search system design; text mining
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Změněno: 29. 11. 2016 11:48.
Anotace
This paper describes the design of a new ScaleText system aimed at scalable semantic indexing of heterogeneous textual corpora. We discuss the design decisions that lead to a modular system architecture for indexing and searching using semantic vectors of document segments – nuggets of wisdom. The prototype system implementation is evaluated by applying Latent Semantic Indexing (LSI) on the Enron corpus. And the Bpref measure is used to automate comparing the performance of different algorithms and system configurations.
Návaznosti
MUNI/A/0892/2015, interní kód MUNázev: Výzkum v aplikované informatice na FI MU (Akronym: VAIFIMU)
Investor: Masarykova univerzita, Grantová agentura MU, Kategorie A - Specifický výzkum - Studentské výzkumné projekty
TD03000295, projekt VaVNázev: Inteligentní software pro sémantické hledání dokumentů (Akronym: ISSHD)
Investor: Technologická agentura ČR, OMEGA
VytisknoutZobrazeno: 17. 10. 2017 09:52

Relevantní odkazy 


Nahoru | Aktuální datum a čas: 17. 10. 2017 09:52, 42. (sudý) týden

Kontakty: istech(zavináč/atsign)fi(tečka/dot)muni(tečka/dot)cz, studijní odd., správci práv, is-technici, e-technici, IT podpora | Použití cookies | Více o Informačním systému