Gensim -- Statistical Semantics in Python

ŘEHŮŘEK, Radim a Petr SOJKA. Gensim -- Statistical Semantics in Python. In EuroScipy 2011, Paris. 2011.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Gensim -- Statistical Semantics in Python
Název česky	Gensim -- statistická sémantika v Pythonu
Autoři	ŘEHŮŘEK, Radim (203 Česká republika, garant, domácí) a Petr SOJKA (203 Česká republika, domácí).
Vydání	EuroScipy 2011, Paris, 2011.

Další údaje
Originální jazyk	angličtina
Typ výsledku	Prezentace na konferencích
Obor	10201 Computer sciences, information science, bioinformatics
Stát vydavatele	Francie
Utajení	není předmětem státního či obchodního tajemství
WWW	poster conference programme
Kód RIV	RIV/00216224:14330/11:00053512
Organizační jednotka	Fakulta informatiky
Klíčová slova česky	statistická sémantika;gensim;Python;LDA;SVD
Klíčová slova anglicky	statistical semantics;gensim;Python;LDA;SVD
Příznaky	Mezinárodní význam, Recenzováno
Změnil	Změnil: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Změněno: 17. 4. 2012 22:37.

Anotace

\texttt{Gensim} is a pure Python library that fights on two fronts: 1)~digital document indexing and similarity search; and 2)~fast, memory-efficient, scalable algorithms for Singular Value Decomposition and Latent Dirichlet Allocation. The connection between the two is unsupervised, semantic analysis of plain text in digital collections. Gensim was created for large digital libraries, but its underlying algorithms for large-scale, distributed, online SVD and LDA are like the Swiss Army knife of data analysis---also useful on their own, outside of the domain of Natural Language Processing.

Anotace česky

\texttt{Gensim} je knihovna naprogramovaná jazyce Python, která je užitečná na dvou frontách: 1) pro indexaci elektronických dokumentů a pro podobnostní hledání; a 2) pro rychlou, paměťově omezenou a efektivní škálovatelnou implementaci algoritmů pro Singular Value Decomposition a Latent Dirichlet Allocation. Vazba mezi oběma užitími je semantická analýza textů (bez učitele) v rozsáhlých digitálních kolekcích a knihovnách. Gensim byl vytvořen pro velké digitální knihovny, ale jím implementované algoritmy pro velké, distribuované, online užití SVD a LDA jsou švýcarským nožíkem analýzy dat a jako takové jsou užitečné i mimo doménu Natural Language Processing.

Návaznosti
LC536, projekt VaV	Název: Centrum komputační lingvistiky
LC536, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
250503, interní kód MU	Název: The European Digital Mathematics Library (Akronym: EuDML)
250503, interní kód MU	Investor: Evropská unie, The European Digital Mathematics Library

VytisknoutZobrazeno: 19. 4. 2024 02:10

Gensim -- Statistical Semantics in Python

Další aplikace