ŘEHŮŘEK, Radim. On Dimensionality of Latent Semantic Indexing for Text Segmentation. Proceedings of the International Multiconference on Computer Science and Information Technology. Wisła, Poland, roč. 2007, č. 2, s. 347-356. ISSN 1896-7094. 2007.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název On Dimensionality of Latent Semantic Indexing for Text Segmentation
Název česky K dimenzionalitě Lantentního Sémantického Indexování pro segmentaci textu
Autoři ŘEHŮŘEK, Radim (203 Česká republika, garant).
Vydání Proceedings of the International Multiconference on Computer Science and Information Technology, Wisła, Poland, 2007, 1896-7094.
Další údaje
Originální jazyk angličtina
Typ výsledku Článek v odborném periodiku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Polsko
Utajení není předmětem státního či obchodního tajemství
WWW URL
Kód RIV RIV/00216224:14330/07:00022870
Organizační jednotka Fakulta informatiky
Klíčová slova anglicky text segmentation; LSI; latent semantic indexing
Štítky latent semantic indexing, LSI, text segmentation
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Radim Řehůřek, Ph.D., učo 39672. Změněno: 4. 12. 2007 00:00.
Anotace
In this paper we propose features desirable of linear text segmentation algorithms for the Information Retrieval domain, with emphasis on improving high similarity search of heterogeneous texts. We proceed to describe a robust purely statistical method, based on context overlap exploitation, that exhibits these desired features. Ways to automatically determine its internal parameter of latent space dimensionality are discussed and evaluated on a data set.
Anotace česky
In this paper we propose features desirable of linear text segmentation algorithms for the Information Retrieval domain, with emphasis on improving high similarity search of heterogeneous texts. We proceed to describe a robust purely statistical method, based on context overlap exploitation, that exhibits these desired features. Ways to automatically determine its internal parameter of latent space dimensionality are discussed and evaluated on a data set.
Návaznosti
LC536, projekt VaVNázev: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
VytisknoutZobrazeno: 16. 4. 2024 12:19