ŘEHŮŘEK, Radim a Petr SOJKA. Software Framework for Topic Modelling with Large Corpora. In Proceedings of LREC 2010 workshop New Challenges for NLP Frameworks. Valletta, Malta: University of Malta. s. 46--50. ISBN 2-9517408-6-7. 2010.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Software Framework for Topic Modelling with Large Corpora
Název česky Softwarový framework pro tematickou podobnost ve velkých korpusech
Autoři ŘEHŮŘEK, Radim (203 Česká republika, domácí) a Petr SOJKA (203 Česká republika, garant, domácí).
Vydání Valletta, Malta, Proceedings of LREC 2010 workshop New Challenges for NLP Frameworks, od s. 46--50, 5 s. 2010.
Nakladatel University of Malta
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 20206 Computer hardware and architecture
Stát vydavatele Malta
Utajení není předmětem státního či obchodního tajemství
Forma vydání paměťový nosič (CD, DVD, flash disk)
WWW workshop proceedings gensim project homepage poster fulltext PDF
Kód RIV RIV/00216224:14330/10:00043991
Organizační jednotka Fakulta informatiky
ISBN 2-9517408-6-7
Klíčová slova česky podobnost dokumentů; NLP; software; vektorový model dokumentů; softwarový framework; tematická podobnost dokumentů; Python; IR; LSA; LDA; gensim; DML-CZ
Klíčová slova anglicky document similarity; NLP; software; vector space model; topical modelling; software framework; topical document similarity; Python; IR; LSA; LDA; gensim; DML-CZ
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Změněno: 10. 5. 2013 18:27.
Anotace
Large corpora are ubiquitous in today's world and memory quickly becomes the limiting factor in practical applications of the Vector Space Model (VSM). We identify gap in existing VSM implementations, which is their scalability and ease of use. We describe a Natural Language Processing software framework which is based on the idea of document streaming, i.e. processing corpora document after document, in a memory independent fashion. In this framework, we implement several popular algorithms for topical inference, including Latent Semantic Analysis and Latent Dirichlet Allocation, in a way that makes them completely independent of the training corpus size. Particular emphasis is placed on straightforward and intuitive framework design, so that modifications and extensions of the methods and/or their application by interested practitioners are effortless. We demonstrate the usefulness of our approach on a real-world scenario of computing document similarities within an existing digital library DML-CZ.
Anotace česky
Velké korpusy jsou dnes všudypřítomné. Při jejich plnotextovém zpracování ve vektorové reprezentaci (podobnost dokumentů) brzy začne být limitujícím faktorem velikost paměti. Identifikovali jsme a zaplnili mezeru v dobře škálovatelné implementaci několika populárních algoritmů. Popisujeme snadno použitelný NLP softwarový framework založený na myšlence proudového zpracování dokumentů, tedy zpracování jednoho dokumentu po druhém, tedy v konstatní paměti vzhledem k počtu dokumentů. Implementujeme několik populárních algoritmů pro tematickou inferenci, včetně Latentní sémantické analýzy a Latentní Dirichletovy alokace způsobem, který je nezávislý na velikosti korpusu. Důraz je kladen na přímočarý a intuitivní design, aby modifikace a rozšíření metod a jejich užití v praxi bylo co nejjednodušší. Demonstrujeme užitečnost našeho přístupu na nasazení software na příkladu počítání podobností dokumentů v existující digitální matematické knihovně DML-CZ.
Návaznosti
LA09016, projekt VaVNázev: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Akronym: ERCIM)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Účast ČR v European Research Consortium for Informatics and Mathematics
MUNI/E/0084/2009, interní kód MUNázev: Podobnost matematických vzorců
Investor: Masarykova univerzita, Podobnost matematických vzorců, Kat. E - Podpora výzkumné činnosti studentů v oborech lékařství, zdravotnictví, přírodovědy a informatiky - centralizované prostředky
2C06009, projekt VaVNázev: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce
Typ Název Vložil/a Vloženo Práva
lrec2010-rehurek-sojka.pdf Licence Creative Commons  Verze souboru Sojka, P. 29. 6. 2012

Vlastnosti

Adresa v ISu
https://is.muni.cz/auth/publication/884893/lrec2010-rehurek-sojka.pdf
Adresa ze světa
https://is.muni.cz/publication/884893/lrec2010-rehurek-sojka.pdf
Adresa do Správce
https://is.muni.cz/auth/publication/884893/lrec2010-rehurek-sojka.pdf?info
Ze světa do Správce
https://is.muni.cz/publication/884893/lrec2010-rehurek-sojka.pdf?info
Vloženo
Pá 29. 6. 2012 14:37, doc. RNDr. Petr Sojka, Ph.D.

Práva

Právo číst
  • kdokoliv v Internetu
  • osoba doc. RNDr. Petr Sojka, Ph.D., učo 2378
  • osoba RNDr. Radim Řehůřek, Ph.D., učo 39672
Právo vkládat
 
Právo spravovat
  • osoba doc. RNDr. Petr Sojka, Ph.D., učo 2378
  • osoba RNDr. Radim Řehůřek, Ph.D., učo 39672
Atributy
 

lrec2010-rehurek-sojka.pdf

Aplikace
Otevřít soubor.
Stáhnout soubor.
Adresa v ISu
https://is.muni.cz/auth/publication/884893/lrec2010-rehurek-sojka.pdf
Adresa ze světa
https://is.muni.cz/publication/884893/lrec2010-rehurek-sojka.pdf
Typ souboru
PDF (application/pdf)
Velikost
142,5 KB
Hash md5
f461760fcc72ab3bb8ab40c2a1d97535
Vloženo
Pá 29. 6. 2012 14:37

lrec2010-rehurek-sojka.txt

Aplikace
Otevřít soubor.
Stáhnout soubor.
Adresa v ISu
https://is.muni.cz/auth/publication/884893/lrec2010-rehurek-sojka.txt
Adresa ze světa
https://is.muni.cz/publication/884893/lrec2010-rehurek-sojka.txt
Typ souboru
holý text (text/plain)
Velikost
25,2 KB
Hash md5
8ebae8fca3b8498c52b04e077ede2028
Vloženo
Pá 29. 6. 2012 14:38
Vytisknout
Nahlásit neoprávněně vložený soubor Zobrazeno: 18. 4. 2024 22:50