MATERNA, Jiří. Automatic Web Page Classification. In Recent Advances in Slavonic Natural Language Processing. Brno: Faculty of Informatics, Masaryk University. 10 pp. ISBN 978-80-210-4741-9. 2008.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name Automatic Web Page Classification
Name in Czech Automatické určení domény a klíčových slov stránky
Authors MATERNA, Jiří (203 Czech Republic, guarantor, belonging to the institution).
Edition Brno, Recent Advances in Slavonic Natural Language Processing, 10 pp. 2008.
Publisher Faculty of Informatics, Masaryk University
Other information
Original language English
Type of outcome Proceedings paper
Field of Study 10201 Computer sciences, information science, bioinformatics
Country of publisher Czech Republic
Confidentiality degree is not subject to a state or trade secret
Publication form electronic version available online
WWW URL
RIV identification code RIV/00216224:14330/08:00042213
Organization unit Faculty of Informatics
ISBN 978-80-210-4741-9
UT WoS 000302212600014
Keywords (in Czech) automatická klasifikace dokumentů; strojové učení; thesaurus
Keywords in English automatic classification; machine learning; thesaurus
Tags automatic classification, machine learning, thesaurus
Changed by Changed by: RNDr. Jiří Materna, Ph.D., učo 98897. Changed: 28/5/2021 12:00.
Abstract
Aim of this paper is to describe a method of automatic web page classification to semantic domains and its evaluation. The classification method exploits machine learning algorithms and several morphological as well as semantical text processing tools. In contrast to general text document classification, in the web document classification, there are often problems with short web pages. In this paper we proposed two approaches to eliminate the lack of information. In the first one we consider a wider context of a web page. That means we analyze web pages referenced from the investigated page. The second approach is based on sophisticated term clustering by their similar grammatical context. This is done using statistic corpora tool the Sketch Engine.
Abstract (in Czech)
Cílem této práce je navrhnout a otestovat přístup, který umožní automatickou klasifikaci webových stránek do domén a určení klíčových slov stránky. Klasifikace stránek je založena na použití strojového učení. Hlavním problémem je však malý rozsah webových stránek, který užití metod strojového učení znesnadňuje. V práci jsou navrženy dva přístupy, které se snaží tento nedostatek minimalizovat. Prvním z nich je zohledňování širšího kontextu webové stránky, to znamená, že se analyzují i stránky, umístěné ve stejné internetové doméně, které jsou ze zkoumané stránky odkazovány. Druhou metodou je shlukování termů dokumentu na základě jejich podobného gramatického kontextu. Pro tyto účely je vytvořen poměrně rozsáhlý thesaurus a z něho shlukový slovník.
Links
LC536, research and development projectName: Centrum komputační lingvistiky
Investor: Ministry of Education, Youth and Sports of the CR, Centrum komputační lingvistiky
PrintDisplayed: 16/4/2024 23:09