D 2011

Určení tematické konzistence dokumentu

MATERNA, Jiří

Základní údaje

Originální název

Určení tematické konzistence dokumentu

Název česky

Určení tematické konzistence dokumentu

Název anglicky

Determining topic consistency of a document

Autoři

Vydání

Ostrava, Znalosti 2011, od s. 148 -- 158, 338 s. 2011

Nakladatel

Fakulta elektrotechniky a informatiky, VŠB -- Technická univerzita Ostrava

Další údaje

Jazyk

čeština

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Označené pro přenos do RIV

Ano

Kód RIV

RIV/00216224:14330/11:00051858

Organizační jednotka

Fakulta informatiky

ISBN

978-80-248-2369-0

Klíčová slova česky

fulltextový vyhledávačů; tematická konzistence; zpětné odkazy

Klíčová slova anglicky

fulltext search engine; topic consistency; backlinks
Změněno: 25. 11. 2011 09:57, RNDr. Jiří Materna, Ph.D.

Anotace

V originále

Cílem této práce bylo navrhnout a implementovat nástroj, který pro libovolný textový dokument v českém jazyce určí, do jaké míry je jeho text tematicky (in)konzistentní a současně rozhodne, zda je vhodné použít jeho odkazy pro výpočet relevance ve fulltextovém vyhledávání (na základě tematické konzistence). Ukazuje se totiž, že by odkazy tematicky nesouroudé webové stránky měly mít menší váhu než odkazy stránky tematicky sourodé. Navržený nástroj je založen na statistických i heuristických metodách a na testovací množině 200 dokumentů dosahuje přesnosti 93,5 %

Anglicky

The aim of this work is to design and implement a tool, which should be able to assign a score reflecting topic consistency of any web document written in the Czech language. This score is dedicated to be used for deciding whether the document's hyperlinks are appropriate for computing relevancy of referenced documents. In fact, it turns out that inconsistent documents should not be used. The presented algorithm uses both statistical and heuristic methods and has the precision about 93.5 % on the set of 200 test documents.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky