J 2007

Text Segmentation Using Context Overlap

ŘEHŮŘEK, Radim

Základní údaje

Originální název

Text Segmentation Using Context Overlap

Název česky

Segmentace textu s použitím překryvu kontextů

Autoři

ŘEHŮŘEK, Radim (203 Česká republika, garant)

Vydání

Progress in Artificial Intelligence, Guimarães, Portugal, Springer Berlin / Heidelberg, 2007, 0302-9743

Další údaje

Jazyk

angličtina

Typ výsledku

Článek v odborném periodiku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Portugalsko

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Kód RIV

RIV/00216224:14330/07:00023050

Organizační jednotka

Fakulta informatiky

UT WoS

000252074800054

Klíčová slova anglicky

text segmentation; LSI; latent semantic indexing

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 29. 3. 2010 18:51, RNDr. Radim Řehůřek, Ph.D.

Anotace

V originále

In this paper we propose features desirable of linear text segmentation algorithms for the Information Retrieval domain, with emphasis on improving high similarity search of heterogeneous texts. We proceed to describe a robust purely statistical method, based on context overlap exploitation, that exhibits these desired features. Experimental results are presented, along with comparison to other existing algorithms.

Česky

In this paper we propose features desirable of linear text segmentation algorithms for the Information Retrieval domain, with emphasis on improving high similarity search of heterogeneous texts. We proceed to describe a robust purely statistical method, based on context overlap exploitation, that exhibits these desired features. Experimental results are presented, along with comparison to other existing algorithms.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky