ŘEHŮŘEK, Radim. Text Segmentation Using Context Overlap. Progress in Artificial Intelligence. Guimarães, Portugal: Springer Berlin / Heidelberg, roč. 2007, č. 4874, s. 647-658, 11 s. ISSN 0302-9743. 2007.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Text Segmentation Using Context Overlap
Název česky Segmentace textu s použitím překryvu kontextů
Autoři ŘEHŮŘEK, Radim (203 Česká republika, garant).
Vydání Progress in Artificial Intelligence, Guimarães, Portugal, Springer Berlin / Heidelberg, 2007, 0302-9743.
Další údaje
Originální jazyk angličtina
Typ výsledku Článek v odborném periodiku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Portugalsko
Utajení není předmětem státního či obchodního tajemství
WWW URL
Kód RIV RIV/00216224:14330/07:00023050
Organizační jednotka Fakulta informatiky
UT WoS 000252074800054
Klíčová slova anglicky text segmentation; LSI; latent semantic indexing
Štítky latent semantic indexing, LSI, text segmentation
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Radim Řehůřek, Ph.D., učo 39672. Změněno: 29. 3. 2010 18:51.
Anotace
In this paper we propose features desirable of linear text segmentation algorithms for the Information Retrieval domain, with emphasis on improving high similarity search of heterogeneous texts. We proceed to describe a robust purely statistical method, based on context overlap exploitation, that exhibits these desired features. Experimental results are presented, along with comparison to other existing algorithms.
Anotace česky
In this paper we propose features desirable of linear text segmentation algorithms for the Information Retrieval domain, with emphasis on improving high similarity search of heterogeneous texts. We proceed to describe a robust purely statistical method, based on context overlap exploitation, that exhibits these desired features. Experimental results are presented, along with comparison to other existing algorithms.
Návaznosti
LC536, projekt VaVNázev: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
VytisknoutZobrazeno: 16. 4. 2024 13:05