Software Framework for Topic Modelling with Large Corpora

ŘEHŮŘEK, Radim a Petr SOJKA. Software Framework for Topic Modelling with Large Corpora. In Proceedings of LREC 2010 workshop New Challenges for NLP Frameworks. Valletta, Malta: University of Malta. s. 46--50. ISBN 2-9517408-6-7. 2010.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Software Framework for Topic Modelling with Large Corpora
Název česky	Softwarový framework pro tematickou podobnost ve velkých korpusech
Autoři	ŘEHŮŘEK, Radim (203 Česká republika, domácí) a Petr SOJKA (203 Česká republika, garant, domácí).
Vydání	Valletta, Malta, Proceedings of LREC 2010 workshop New Challenges for NLP Frameworks, od s. 46--50, 5 s. 2010.
Nakladatel	University of Malta

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	20206 Computer hardware and architecture
Stát vydavatele	Malta
Utajení	není předmětem státního či obchodního tajemství
Forma vydání	paměťový nosič (CD, DVD, flash disk)
WWW	workshop proceedings gensim project homepage poster fulltext PDF
Kód RIV	RIV/00216224:14330/10:00043991
Organizační jednotka	Fakulta informatiky
ISBN	2-9517408-6-7
Klíčová slova česky	podobnost dokumentů; NLP; software; vektorový model dokumentů; softwarový framework; tematická podobnost dokumentů; Python; IR; LSA; LDA; gensim; DML-CZ
Klíčová slova anglicky	document similarity; NLP; software; vector space model; topical modelling; software framework; topical document similarity; Python; IR; LSA; LDA; gensim; DML-CZ
Příznaky	Mezinárodní význam, Recenzováno
Změnil	Změnil: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Změněno: 10. 5. 2013 18:27.

Anotace

Large corpora are ubiquitous in today's world and memory quickly becomes the limiting factor in practical applications of the Vector Space Model (VSM). We identify gap in existing VSM implementations, which is their scalability and ease of use. We describe a Natural Language Processing software framework which is based on the idea of document streaming, i.e. processing corpora document after document, in a memory independent fashion. In this framework, we implement several popular algorithms for topical inference, including Latent Semantic Analysis and Latent Dirichlet Allocation, in a way that makes them completely independent of the training corpus size. Particular emphasis is placed on straightforward and intuitive framework design, so that modifications and extensions of the methods and/or their application by interested practitioners are effortless. We demonstrate the usefulness of our approach on a real-world scenario of computing document similarities within an existing digital library DML-CZ.

Anotace česky

Velké korpusy jsou dnes všudypřítomné. Při jejich plnotextovém zpracování ve vektorové reprezentaci (podobnost dokumentů) brzy začne být limitujícím faktorem velikost paměti. Identifikovali jsme a zaplnili mezeru v dobře škálovatelné implementaci několika populárních algoritmů. Popisujeme snadno použitelný NLP softwarový framework založený na myšlence proudového zpracování dokumentů, tedy zpracování jednoho dokumentu po druhém, tedy v konstatní paměti vzhledem k počtu dokumentů. Implementujeme několik populárních algoritmů pro tematickou inferenci, včetně Latentní sémantické analýzy a Latentní Dirichletovy alokace způsobem, který je nezávislý na velikosti korpusu. Důraz je kladen na přímočarý a intuitivní design, aby modifikace a rozšíření metod a jejich užití v praxi bylo co nejjednodušší. Demonstrujeme užitečnost našeho přístupu na nasazení software na příkladu počítání podobností dokumentů v existující digitální matematické knihovně DML-CZ.

Návaznosti
LA09016, projekt VaV	Název: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Akronym: ERCIM)
LA09016, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Účast ČR v European Research Consortium for Informatics and Mathematics
MUNI/E/0084/2009, interní kód MU	Název: Podobnost matematických vzorců
MUNI/E/0084/2009, interní kód MU	Investor: Masarykova univerzita, Podobnost matematických vzorců, Kat. E - Podpora výzkumné činnosti studentů v oborech lékařství, zdravotnictví, přírodovědy a informatiky - centralizované prostředky
2C06009, projekt VaV	Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
2C06009, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce

Typ	Název	Vložil/a	Vloženo
	lrec2010-rehurek-sojka.pdf	Sojka, P.	29. 6. 2012
Vlastnosti Adresa v ISu https://is.muni.cz/auth/publication/884893/lrec2010-rehurek-sojka.pdf Adresa ze světa https://is.muni.cz/publication/884893/lrec2010-rehurek-sojka.pdf Adresa do Správce https://is.muni.cz/auth/publication/884893/lrec2010-rehurek-sojka.pdf?info Ze světa do Správce https://is.muni.cz/publication/884893/lrec2010-rehurek-sojka.pdf?info Vloženo Pá 29. 6. 2012 14:37, doc. RNDr. Petr Sojka, Ph.D. Práva Právo číst kdokoliv v Internetu osoba doc. RNDr. Petr Sojka, Ph.D., učo 2378 osoba RNDr. Radim Řehůřek, Ph.D., učo 39672 Právo vkládat Právo spravovat osoba doc. RNDr. Petr Sojka, Ph.D., učo 2378 osoba RNDr. Radim Řehůřek, Ph.D., učo 39672 Atributy lrec2010-rehurek-sojka.pdf Aplikace Otevřít soubor. Stáhnout soubor. Adresa v ISu https://is.muni.cz/auth/publication/884893/lrec2010-rehurek-sojka.pdf Adresa ze světa https://is.muni.cz/publication/884893/lrec2010-rehurek-sojka.pdf Typ souboru PDF (application/pdf) Velikost 142,5 KB Hash md5 f461760fcc72ab3bb8ab40c2a1d97535 Vloženo Pá 29. 6. 2012 14:37 lrec2010-rehurek-sojka.txt Aplikace Otevřít soubor. Stáhnout soubor. Adresa v ISu https://is.muni.cz/auth/publication/884893/lrec2010-rehurek-sojka.txt Adresa ze světa https://is.muni.cz/publication/884893/lrec2010-rehurek-sojka.txt Typ souboru holý text (text/plain) Velikost 25,2 KB Hash md5 8ebae8fca3b8498c52b04e077ede2028 Vloženo Pá 29. 6. 2012 14:38