Detailed Information on Publication Record
2010
Software Framework for Topic Modelling with Large Corpora
ŘEHŮŘEK, Radim and Petr SOJKABasic information
Original name
Software Framework for Topic Modelling with Large Corpora
Name in Czech
Softwarový framework pro tematickou podobnost ve velkých korpusech
Authors
ŘEHŮŘEK, Radim (203 Czech Republic, belonging to the institution) and Petr SOJKA (203 Czech Republic, guarantor, belonging to the institution)
Edition
Valletta, Malta, Proceedings of LREC 2010 workshop New Challenges for NLP Frameworks, p. 46--50, 5 pp. 2010
Publisher
University of Malta
Other information
Language
English
Type of outcome
Stať ve sborníku
Field of Study
20206 Computer hardware and architecture
Country of publisher
Malta
Confidentiality degree
není předmětem státního či obchodního tajemství
Publication form
storage medium (CD, DVD, flash disk)
RIV identification code
RIV/00216224:14330/10:00043991
Organization unit
Faculty of Informatics
ISBN
2-9517408-6-7
Keywords (in Czech)
podobnost dokumentů; NLP; software; vektorový model dokumentů; softwarový framework; tematická podobnost dokumentů; Python; IR; LSA; LDA; gensim; DML-CZ
Keywords in English
document similarity; NLP; software; vector space model; topical modelling; software framework; topical document similarity; Python; IR; LSA; LDA; gensim; DML-CZ
Tags
International impact, Reviewed
Změněno: 10/5/2013 18:27, doc. RNDr. Petr Sojka, Ph.D.
V originále
Large corpora are ubiquitous in today's world and memory quickly becomes the limiting factor in practical applications of the Vector Space Model (VSM). We identify gap in existing VSM implementations, which is their scalability and ease of use. We describe a Natural Language Processing software framework which is based on the idea of document streaming, i.e. processing corpora document after document, in a memory independent fashion. In this framework, we implement several popular algorithms for topical inference, including Latent Semantic Analysis and Latent Dirichlet Allocation, in a way that makes them completely independent of the training corpus size. Particular emphasis is placed on straightforward and intuitive framework design, so that modifications and extensions of the methods and/or their application by interested practitioners are effortless. We demonstrate the usefulness of our approach on a real-world scenario of computing document similarities within an existing digital library DML-CZ.
In Czech
Velké korpusy jsou dnes všudypřítomné. Při jejich plnotextovém zpracování ve vektorové reprezentaci (podobnost dokumentů) brzy začne být limitujícím faktorem velikost paměti. Identifikovali jsme a zaplnili mezeru v dobře škálovatelné implementaci několika populárních algoritmů. Popisujeme snadno použitelný NLP softwarový framework založený na myšlence proudového zpracování dokumentů, tedy zpracování jednoho dokumentu po druhém, tedy v konstatní paměti vzhledem k počtu dokumentů. Implementujeme několik populárních algoritmů pro tematickou inferenci, včetně Latentní sémantické analýzy a Latentní Dirichletovy alokace způsobem, který je nezávislý na velikosti korpusu. Důraz je kladen na přímočarý a intuitivní design, aby modifikace a rozšíření metod a jejich užití v praxi bylo co nejjednodušší. Demonstrujeme užitečnost našeho přístupu na nasazení software na příkladu počítání podobností dokumentů v existující digitální matematické knihovně DML-CZ.
Links
LA09016, research and development project |
| ||
MUNI/E/0084/2009, interní kód MU |
| ||
2C06009, research and development project |
|