R 2016

ScaleText

ŘEHŮŘEK, Radim a Jan RYGL

Základní údaje

Originální název

ScaleText

Autoři

ŘEHŮŘEK, Radim a Jan RYGL

Vydání

2016

Další údaje

Jazyk

angličtina

Typ výsledku

Software

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

obsah podléhá obchodnímu tajemství

Označené pro přenos do RIV

Ne

Klíčová slova anglicky

information retrieval; semantic search; document topic modeling; machine learning; search; deep learning; ScaleText

Technické parametry

Toto prototypové vydání slouží jako proof-of-concept ověření metody práce celého systému. Návrh architektury a celkový přehled systému byl publikován v [RYGL, Jan, Petr SOJKA, Michal RŮŽIČKA a Radim ŘEHŮŘEK. ScaleText: The Design of a Scalable, Adaptable and User-Friendly Document System for Similarity Searches : Digging for Nuggets of Wisdom in Text. In Aleš Horák, Pavel Rychlý, Adam Rambousek. Proceedings of the Tenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2016. Brno: Tribun EU, 2016. s. 79-87, 9 s. ISBN 978-80-263-1095-2.]. Software byl ověřen indexováním celého obsahu anglické jazykové mutace encyklopedie Wikipedia, sledována byla stabilita, výkon a přesnost systému při použití různých kombinací konfiguračních parametrů. Tyto technické výsledky byly sumarizovány v publikaci [RYGL, Jan, Radim ŘEHŮŘEK, Michal RŮŽIČKA a Petr SOJKA. Semantic Vector Encodings and Comparison of Search Performance for Inverted Index-Based Engines. 13 s. Připravuje se k vydání.].

Příznaky

Mezinárodní význam
Změněno: 23. 3. 2017 09:58, RNDr. Michal Růžička, Ph.D.

Anotace

V originále

ScaleText version 0.7 is an early prototype of an innovative software for scalable semantic text search, aimed at evaluating the performance and technical feasibility of the project. The core of this result is a database engine, realized as a stand-alone package in the Python language, that implements document indexing and search using vectors for text representation. The vectors are created automatically from plain text using several methods for semantic analysis: LSI, LDA, TF-IDF. The documents go through several stages, from preprocessing, segmentation, vectorization to vector encoding and storage. Each step is realized by a dedicated component, with its output backed by a backend database engine for persistence. See the associated publication [RYGL, Jan, Petr SOJKA, Michal RŮŽIČKA and Radim ŘEHŮŘEK. ScaleText: The Design of a Scalable, Adaptable and User-Friendly Document System for Similarity Searches : Digging for Nuggets of Wisdom in Text. In Aleš Horák, Pavel Rychlý, Adam Rambousek. Proceedings of the Tenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2016. Brno: Tribun EU, 2016. p. 79-87, 9 pp. ISBN 978-80-263-1095-2.] for a deeper description of the design methodology, APIs and data flow. Release 0.7 includes the definition of class interfaces and dependencies, plus their instantiation using concrete algorithms of LSI and LDA, and a concrete database backend of Gensim, making the system fully end-to-end executable.

Návaznosti

TD03000295, projekt VaV
Název: Inteligentní software pro sémantické hledání dokumentů (Akronym: ISSHD)
Investor: Technologická agentura ČR, Inteligentní software pro sémantické hledání dokumentů