Automatic Web Page Classification

MATERNA, Jiří. Automatic Web Page Classification. Online. In Recent Advances in Slavonic Natural Language Processing. Brno: Faculty of Informatics, Masaryk University, 2008, 10 s. ISBN 978-80-210-4741-9.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Automatic Web Page Classification
Název česky	Automatické určení domény a klíčových slov stránky
Autoři	MATERNA, Jiří (203 Česká republika, garant, domácí).
Vydání	Brno, Recent Advances in Slavonic Natural Language Processing, 10 s. 2008.
Nakladatel	Faculty of Informatics, Masaryk University

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	10201 Computer sciences, information science, bioinformatics
Stát vydavatele	Česká republika
Utajení	není předmětem státního či obchodního tajemství
Forma vydání	elektronická verze "online"
WWW	URL
Kód RIV	RIV/00216224:14330/08:00042213
Organizační jednotka	Fakulta informatiky
ISBN	978-80-210-4741-9
UT WoS	000302212600014
Klíčová slova česky	automatická klasifikace dokumentů; strojové učení; thesaurus
Klíčová slova anglicky	automatic classification; machine learning; thesaurus
Štítky	automatic classification, machine learning, thesaurus
Změnil	Změnil: RNDr. Jiří Materna, Ph.D., učo 98897. Změněno: 28. 5. 2021 12:00.

Anotace

Aim of this paper is to describe a method of automatic web page classification to semantic domains and its evaluation. The classification method exploits machine learning algorithms and several morphological as well as semantical text processing tools. In contrast to general text document classification, in the web document classification, there are often problems with short web pages. In this paper we proposed two approaches to eliminate the lack of information. In the first one we consider a wider context of a web page. That means we analyze web pages referenced from the investigated page. The second approach is based on sophisticated term clustering by their similar grammatical context. This is done using statistic corpora tool the Sketch Engine.

Anotace česky

Cílem této práce je navrhnout a otestovat přístup, který umožní automatickou klasifikaci webových stránek do domén a určení klíčových slov stránky. Klasifikace stránek je založena na použití strojového učení. Hlavním problémem je však malý rozsah webových stránek, který užití metod strojového učení znesnadňuje. V práci jsou navrženy dva přístupy, které se snaží tento nedostatek minimalizovat. Prvním z nich je zohledňování širšího kontextu webové stránky, to znamená, že se analyzují i stránky, umístěné ve stejné internetové doméně, které jsou ze zkoumané stránky odkazovány. Druhou metodou je shlukování termů dokumentu na základě jejich podobného gramatického kontextu. Pro tyto účely je vytvořen poměrně rozsáhlý thesaurus a z něho shlukový slovník.

Návaznosti
LC536, projekt VaV	Název: Centrum komputační lingvistiky
LC536, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky

VytisknoutZobrazeno: 5. 9. 2024 04:24

Automatic Web Page Classification

Další aplikace