Information System of Masaryk University 

Software Framework for Topic Modelling with Large Corpora

česky | in English

ŘEHŮŘEK, Radim and Petr SOJKA. Software Framework for Topic Modelling with Large Corpora. In Proceedings of LREC 2010 workshop New Challenges for NLP Frameworks. Valletta, Malta: University of Malta, 2010. p. 46--50, 5 pp. ISBN 2-9517408-6-7.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name Software Framework for Topic Modelling with Large Corpora
Name in Czech Softwarový framework pro tematickou podobnost ve velkých korpusech
Authors ŘEHŮŘEK, Radim (203 Czech Republic, belonging to the institution) and Petr SOJKA (203 Czech Republic, guarantor, belonging to the institution).
Edition Valletta, Malta, Proceedings of LREC 2010 workshop New Challenges for NLP Frameworks, p. 46--50, 5 pp. 2010.
Publisher University of Malta
Other information
Original language English
Type of outcome article in proceedings
Field of Study Počítačový hardware a software
Country of publisher Malta
Confidentiality degree není předmětem státního či obchodního tajemství
Publication form storage medium (CD, DVD, flash disk)
WWW poster fulltext PDF workshop proceedings gensim project homepage
Type Článek ve sborníku
RIV identification code RIV/00216224:14330/10:00043991
Organization unit Faculty of Informatics
ISBN 2-9517408-6-7
Keywords (in Czech) podobnost dokumentů; NLP; software; vektorový model dokumentů; softwarový framework; tematická podobnost dokumentů; Python; IR; LSA; LDA; gensim; DML-CZ
Keywords in English document similarity; NLP; software; vector space model; topical modelling; software framework; topical document similarity; Python; IR; LSA; LDA; gensim; DML-CZ
Tags International impact, Reviewed
Links LA09016, research and development project. MUNI/E/0084/2009. 2C06009, research and development project.
Changed by Changed by: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Changed: 10. 5. 2013 18:27.
Abstract
Large corpora are ubiquitous in today's world and memory quickly becomes the limiting factor in practical applications of the Vector Space Model (VSM). We identify gap in existing VSM implementations, which is their scalability and ease of use. We describe a Natural Language Processing software framework which is based on the idea of document streaming, i.e. processing corpora document after document, in a memory independent fashion. In this framework, we implement several popular algorithms for topical inference, including Latent Semantic Analysis and Latent Dirichlet Allocation, in a way that makes them completely independent of the training corpus size. Particular emphasis is placed on straightforward and intuitive framework design, so that modifications and extensions of the methods and/or their application by interested practitioners are effortless. We demonstrate the usefulness of our approach on a real-world scenario of computing document similarities within an existing digital library DML-CZ.
Abstract (in Czech)
Velké korpusy jsou dnes všudypřítomné. Při jejich plnotextovém zpracování ve vektorové reprezentaci (podobnost dokumentů) brzy začne být limitujícím faktorem velikost paměti. Identifikovali jsme a zaplnili mezeru v dobře škálovatelné implementaci několika populárních algoritmů. Popisujeme snadno použitelný NLP softwarový framework založený na myšlence proudového zpracování dokumentů, tedy zpracování jednoho dokumentu po druhém, tedy v konstatní paměti vzhledem k počtu dokumentů. Implementujeme několik populárních algoritmů pro tematickou inferenci, včetně Latentní sémantické analýzy a Latentní Dirichletovy alokace způsobem, který je nezávislý na velikosti korpusu. Důraz je kladen na přímočarý a intuitivní design, aby modifikace a rozšíření metod a jejich užití v praxi bylo co nejjednodušší. Demonstrujeme užitečnost našeho přístupu na nasazení software na příkladu počítání podobností dokumentů v existující digitální matematické knihovně DML-CZ.
Type Name Uploaded/Created by Uploaded/Created Rights
884893 /1 Sojka, P. 29.  6. 2012

Properties

Name
884893
Application
refresh
Address within IS
https://is.muni.cz/auth/repo/884893/
Address for the users outside IS
http://is.muni.cz/repo/884893/
Address within Manager
https://is.muni.cz/auth/repo/884893/?info
Address within Manager for the users outside IS
http://is.muni.cz/repo/884893/?info
Uploaded/Created
Fri 29. 6. 2012 14:37, doc. RNDr. Petr Sojka, Ph.D.

Rights

Right to read:
  • anyone on the Internet
Right to upload:
 
Right to administer:
  • a concrete person doc. RNDr. Petr Sojka, Ph.D., učo 2378
  • a concrete person RNDr. Radim Řehůřek, Ph.D., učo 39672
Attributes
 
lrec2010-rehurek-sojka.pdf Licence Creative Commons  File version Sojka, P. 29.  6. 2012

Properties

Address within IS
https://is.muni.cz/auth/repo/884893/lrec2010-rehurek-sojka.pdf
Address for the users outside IS
http://is.muni.cz/repo/884893/lrec2010-rehurek-sojka.pdf
Address within Manager
https://is.muni.cz/auth/repo/884893/lrec2010-rehurek-sojka.pdf?info
Address within Manager for the users outside IS
http://is.muni.cz/repo/884893/lrec2010-rehurek-sojka.pdf?info
Uploaded/Created
Fri 29. 6. 2012 14:37, doc. RNDr. Petr Sojka, Ph.D.

Rights

Right to read:
  • anyone on the Internet
Right to upload:
 
Right to administer:
  • a concrete person doc. RNDr. Petr Sojka, Ph.D., učo 2378
  • a concrete person RNDr. Radim Řehůřek, Ph.D., učo 39672
Attributes
 

lrec2010-rehurek-sojka.pdf

Application
open the file
Address within IS
https://is.muni.cz/auth/repo/884893/lrec2010-rehurek-sojka.pdf
Address for the users outside IS
http://is.muni.cz/repo/884893/lrec2010-rehurek-sojka.pdf
File type
PDF (application/pdf)
Size
142,5 KB
Hash md5
f461760fcc72ab3bb8ab40c2a1d97535
Uploaded/Created
Fri 29. 6. 2012 14:37

lrec2010-rehurek-sojka.txt

Application
open the file
Address within IS
https://is.muni.cz/auth/repo/884893/lrec2010-rehurek-sojka.txt
Address for the users outside IS
http://is.muni.cz/repo/884893/lrec2010-rehurek-sojka.txt
File type
holý text (text/plain)
Size
25,2 KB
Hash md5
8ebae8fca3b8498c52b04e077ede2028
Uploaded/Created
Fri 29. 6. 2012 14:38
Print
Nahlásit neoprávněně vložený soubor Displayed: 26. 7. 2014 01:03

Other references: 


Go to top | Current date and time: 26. 7. 2014 01:03, Week 30 (even)

Contact: istech(zavináč/atsign)fi(tečka/dot)muni(tečka/dot)cz, Office for Studies, access rights administrators, is-technicians, e-technicians, IT support | learn more about Information System