D 2016

ScaleText: The Design of a Scalable, Adaptable and User-Friendly Document System for Similarity Searches : Digging for Nuggets of Wisdom in Text

RYGL, Jan, Petr SOJKA, Michal RŮŽIČKA a Radim ŘEHŮŘEK

Základní údaje

Originální název

ScaleText: The Design of a Scalable, Adaptable and User-Friendly Document System for Similarity Searches : Digging for Nuggets of Wisdom in Text

Autoři

RYGL, Jan (203 Česká republika), Petr SOJKA (203 Česká republika, garant, domácí), Michal RŮŽIČKA (203 Česká republika, domácí) a Radim ŘEHŮŘEK (203 Česká republika)

Vydání

Brno, Proceedings of the Tenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2016, od s. 79-87, 9 s. 2016

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Kód RIV

RIV/00216224:14330/16:00087632

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-1095-2

ISSN

UT WoS

000466886400009

Klíčová slova česky

ScaleText; modelování vektorovým prostorem; latentní sémantické indexování; LSI; strojové učení; škálovatelné vyhledávání; návrh vyhledávače; dolování textu

Klíčová slova anglicky

ScaleText; vector space modelling; Latent Semantic Indexing; LSI; machine learning; scalable search; search system design; text mining

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 13. 5. 2020 19:39, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

This paper describes the design of a new ScaleText system aimed at scalable semantic indexing of heterogeneous textual corpora. We discuss the design decisions that lead to a modular system architecture for indexing and searching using semantic vectors of document segments – nuggets of wisdom. The prototype system implementation is evaluated by applying Latent Semantic Indexing (LSI) on the Enron corpus. And the Bpref measure is used to automate comparing the performance of different algorithms and system configurations.

Návaznosti

MUNI/A/0892/2015, interní kód MU
Název: Výzkum v aplikované informatice na FI MU (Akronym: VAIFIMU)
Investor: Masarykova univerzita, Výzkum v aplikované informatice na FI MU, DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
TD03000295, projekt VaV
Název: Inteligentní software pro sémantické hledání dokumentů (Akronym: ISSHD)
Investor: Technologická agentura ČR, Inteligentní software pro sémantické hledání dokumentů