First-order Frequent Patterns in Text Mining

BLAŤÁK, Jan. First-order Frequent Patterns in Text Mining. In EPIA'05, 12th Portuguese Conference on Artificial Intelligence. 1. vyd. Covilha, Portugal: Institute of Electrical and Electronics Engineers, Inc., 2005, s. 344-350. ISBN 0-7803-9365-1.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	First-order Frequent Patterns in Text Mining
Název česky	Prvořádové časté vzory v dolování v textu
Autoři	BLAŤÁK, Jan (203 Česká republika, garant).
Vydání	1. vyd. Covilha, Portugal, EPIA'05, 12th Portuguese Conference on Artificial Intelligence, od s. 344-350, 7 s. 2005.
Nakladatel	Institute of Electrical and Electronics Engineers, Inc.

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	10201 Computer sciences, information science, bioinformatics
Stát vydavatele	Portugalsko
Utajení	není předmětem státního či obchodního tajemství
Kód RIV	RIV/00216224:14330/05:00014356
Organizační jednotka	Fakulta informatiky
ISBN	0-7803-9365-1
UT WoS	000245387100063
Klíčová slova anglicky	machine learning; first-order frequent patterns; text mining; distributed mining
Štítky	distributed mining, first-order frequent patterns, machine learning, text mining
Změnil	Změnil: RNDr. Jan Blaťák, Ph.D., učo 2978. Změněno: 27. 4. 2006 12:03.

Anotace

In this paper a universal framework for mining long first-order frequent patterns in text data is presented. It consists of RAP, an ILP system for mining maximal first-order frequent patterns, and two types of redefined background knowledge. Two methods of using generated patterns for solving text mining tasks are described: propositionalization and CBA (class based association). A new variant of the CBA rule based classifier is proposed. The framework is used for solving three text mining tasks: information extraction from biomedical texts, context-sensitive text correction of English and morphological disambiguation of Czech. The distributed mining of frequent patterns is described and its influence on mining in text is discussed. It is shown that frequent patterns as new features for propositionalization usually provide better results than CBA.

Anotace česky

V tomto článku představíme nové univerzální rozhraní využívající prvořádové časté vzory pro řešení úloh dolování v textu. Sestává ze systému RAP, což je systém ILP určený pro hledání maximálních častých vzorů, a dvou typů doménové znalosti. Jsou popsány dvě metody využití nalezených vzorů pro dolování v textu: propozicionalizace a CBA. Je představena nová verze CBA klasifikátoru. Použití systému je demonstrováno na třech úlohách z dolování textu: extrakci informace z biologických textů, kontextové kontrole pravopisu a morfologické desambiguaci. Diskutujeme také přínos distribuovaného vyhledávání častých vzorů. Je ukázáno, že časté vzory použité jako nové rysy v propozicionalizaci poskytují lepší výsledky než CBA.

Návaznosti
MSM0021622418, záměr	Název: DYNAMICKÁ GEOVIZUALIZACE V KRIZOVÉM MANAGEMENTU
MSM0021622418, záměr	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Dynamická geovizualizace v krizovém managementu

VytisknoutZobrazeno: 29. 7. 2024 09:26

First-order Frequent Patterns in Text Mining

Další aplikace