2011
Určení tematické konzistence dokumentu
MATERNA, JiříZákladní údaje
Originální název
Určení tematické konzistence dokumentu
Název česky
Určení tematické konzistence dokumentu
Název anglicky
Determining topic consistency of a document
Autoři
Vydání
Ostrava, Znalosti 2011, od s. 148 -- 158, 338 s. 2011
Nakladatel
Fakulta elektrotechniky a informatiky, VŠB -- Technická univerzita Ostrava
Další údaje
Jazyk
čeština
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Odkazy
Označené pro přenos do RIV
Ano
Kód RIV
RIV/00216224:14330/11:00051858
Organizační jednotka
Fakulta informatiky
ISBN
978-80-248-2369-0
Klíčová slova česky
fulltextový vyhledávačů; tematická konzistence; zpětné odkazy
Klíčová slova anglicky
fulltext search engine; topic consistency; backlinks
Změněno: 25. 11. 2011 09:57, RNDr. Jiří Materna, Ph.D.
V originále
Cílem této práce bylo navrhnout a implementovat nástroj, který pro libovolný textový dokument v českém jazyce určí, do jaké míry je jeho text tematicky (in)konzistentní a současně rozhodne, zda je vhodné použít jeho odkazy pro výpočet relevance ve fulltextovém vyhledávání (na základě tematické konzistence). Ukazuje se totiž, že by odkazy tematicky nesouroudé webové stránky měly mít menší váhu než odkazy stránky tematicky sourodé. Navržený nástroj je založen na statistických i heuristických metodách a na testovací množině 200 dokumentů dosahuje přesnosti 93,5 %
Anglicky
The aim of this work is to design and implement a tool, which should be able to assign a score reflecting topic consistency of any web document written in the Czech language. This score is dedicated to be used for deciding whether the document's hyperlinks are appropriate for computing relevancy of referenced documents. In fact, it turns out that inconsistent documents should not be used. The presented algorithm uses both statistical and heuristic methods and has the precision about 93.5 % on the set of 200 test documents.
Návaznosti
| LC536, projekt VaV |
|