Software Framework for Topic Modelling with Large Corpora

D 2010

Software Framework for Topic Modelling with Large Corpora

ŘEHŮŘEK, Radim a Petr SOJKA

Základní údaje

Originální název

Software Framework for Topic Modelling with Large Corpora

Název česky

Softwarový framework pro tematickou podobnost ve velkých korpusech

Autoři

ŘEHŮŘEK, Radim (203 Česká republika, domácí) a Petr SOJKA (203 Česká republika, garant, domácí)

Vydání

Valletta, Malta, Proceedings of LREC 2010 workshop New Challenges for NLP Frameworks, od s. 46--50, 5 s. 2010

Nakladatel

University of Malta

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

20206 Computer hardware and architecture

Stát vydavatele

Malta

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

paměťový nosič (CD, DVD, flash disk)

Odkazy

workshop proceedings gensim project homepage poster fulltext PDF

Kód RIV

RIV/00216224:14330/10:00043991

Organizační jednotka

Fakulta informatiky

ISBN

2-9517408-6-7

Klíčová slova česky

podobnost dokumentů; NLP; software; vektorový model dokumentů; softwarový framework; tematická podobnost dokumentů; Python; IR; LSA; LDA; gensim; DML-CZ

Klíčová slova anglicky

document similarity; NLP; software; vector space model; topical modelling; software framework; topical document similarity; Python; IR; LSA; LDA; gensim; DML-CZ

Příznaky

Mezinárodní význam, Recenzováno

Změněno: 10. 5. 2013 18:27, doc. RNDr. Petr Sojka, Ph.D.

Anotace

ORIG CZ

V originále

Large corpora are ubiquitous in today's world and memory quickly becomes the limiting factor in practical applications of the Vector Space Model (VSM). We identify gap in existing VSM implementations, which is their scalability and ease of use. We describe a Natural Language Processing software framework which is based on the idea of document streaming, i.e. processing corpora document after document, in a memory independent fashion. In this framework, we implement several popular algorithms for topical inference, including Latent Semantic Analysis and Latent Dirichlet Allocation, in a way that makes them completely independent of the training corpus size. Particular emphasis is placed on straightforward and intuitive framework design, so that modifications and extensions of the methods and/or their application by interested practitioners are effortless. We demonstrate the usefulness of our approach on a real-world scenario of computing document similarities within an existing digital library DML-CZ.

Česky

Velké korpusy jsou dnes všudypřítomné. Při jejich plnotextovém zpracování ve vektorové reprezentaci (podobnost dokumentů) brzy začne být limitujícím faktorem velikost paměti. Identifikovali jsme a zaplnili mezeru v dobře škálovatelné implementaci několika populárních algoritmů. Popisujeme snadno použitelný NLP softwarový framework založený na myšlence proudového zpracování dokumentů, tedy zpracování jednoho dokumentu po druhém, tedy v konstatní paměti vzhledem k počtu dokumentů. Implementujeme několik populárních algoritmů pro tematickou inferenci, včetně Latentní sémantické analýzy a Latentní Dirichletovy alokace způsobem, který je nezávislý na velikosti korpusu. Důraz je kladen na přímočarý a intuitivní design, aby modifikace a rozšíření metod a jejich užití v praxi bylo co nejjednodušší. Demonstrujeme užitečnost našeho přístupu na nasazení software na příkladu počítání podobností dokumentů v existující digitální matematické knihovně DML-CZ.

Návaznosti

LA09016, projekt VaV

Název: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Akronym: ERCIM)

Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Účast ČR v European Research Consortium for Informatics and Mathematics

MUNI/E/0084/2009, interní kód MU

Název: Podobnost matematických vzorců

Investor: Masarykova univerzita, Podobnost matematických vzorců, Kat. E - Podpora výzkumné činnosti studentů v oborech lékařství, zdravotnictví, přírodovědy a informatiky - centralizované prostředky

2C06009, projekt VaV

Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)

Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce

Přiložené soubory

lrec2010-rehurek-sojka.pdf

Přehled o publikaci