k 2011

Gensim -- Statistical Semantics in Python

ŘEHŮŘEK, Radim a Petr SOJKA

Základní údaje

Originální název

Gensim -- Statistical Semantics in Python

Název česky

Gensim -- statistická sémantika v Pythonu

Autoři

ŘEHŮŘEK, Radim (203 Česká republika, garant, domácí) a Petr SOJKA (203 Česká republika, domácí)

Vydání

EuroScipy 2011, Paris, 2011

Další údaje

Jazyk

angličtina

Typ výsledku

Prezentace na konferencích

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Francie

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14330/11:00053512

Organizační jednotka

Fakulta informatiky

Klíčová slova česky

statistická sémantika;gensim;Python;LDA;SVD

Klíčová slova anglicky

statistical semantics;gensim;Python;LDA;SVD

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 17. 4. 2012 22:37, doc. RNDr. Petr Sojka, Ph.D.

Anotace

V originále

\texttt{Gensim} is a pure Python library that fights on two fronts: 1)~digital document indexing and similarity search; and 2)~fast, memory-efficient, scalable algorithms for Singular Value Decomposition and Latent Dirichlet Allocation. The connection between the two is unsupervised, semantic analysis of plain text in digital collections. Gensim was created for large digital libraries, but its underlying algorithms for large-scale, distributed, online SVD and LDA are like the Swiss Army knife of data analysis---also useful on their own, outside of the domain of Natural Language Processing.

Česky

\texttt{Gensim} je knihovna naprogramovaná jazyce Python, která je užitečná na dvou frontách: 1) pro indexaci elektronických dokumentů a pro podobnostní hledání; a 2) pro rychlou, paměťově omezenou a efektivní škálovatelnou implementaci algoritmů pro Singular Value Decomposition a Latent Dirichlet Allocation. Vazba mezi oběma užitími je semantická analýza textů (bez učitele) v rozsáhlých digitálních kolekcích a knihovnách. Gensim byl vytvořen pro velké digitální knihovny, ale jím implementované algoritmy pro velké, distribuované, online užití SVD a LDA jsou švýcarským nožíkem analýzy dat a jako takové jsou užitečné i mimo doménu Natural Language Processing.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
250503, interní kód MU
Název: The European Digital Mathematics Library (Akronym: EuDML)
Investor: Evropská unie, The European Digital Mathematics Library

Přiložené soubory

rehurek-sojka-scipy2011.pdf
Požádat o autorskou verzi souboru