2009
Languages of Mathematics -- Random Walking in the Mathematics of Languages
SOJKA, PetrZákladní údaje
Originální název
Languages of Mathematics -- Random Walking in the Mathematics of Languages
Název česky
Jazyky matematiky -- náhodná procházka v matematice jazyků
Autoři
Vydání
prvni. Brno, Third Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2009, od s. 127-133, 7 s. 2009
Nakladatel
Masaryk University
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Odkazy
Kód RIV
RIV/00216224:14330/09:00028734
Organizační jednotka
Fakulta informatiky
ISBN
978-80-210-5048-8
Klíčová slova anglicky
language of mathematics;mathematics of language;random walking;plagiarity;similarity;topicality;conarrativity;DML-CZ;EuDML
Příznaky
Mezinárodní význam
Změněno: 13. 5. 2013 23:00, doc. RNDr. Petr Sojka, Ph.D.
V originále
An essay about mathematics being a sublanguage of other natural languages: how it may be represented, stored, searched and handled in several projects of (European) Digital Mathematics Libraries as DML-CZ or EuDML. A framework for solving problem of computing of similar papers in a digital library is proposed, allowing several types of similarity type definitions: \emph{plagiarity} counting on common word $n$-grams, \emph{topicality} counting on common topics, or \emph{conarrativity} counting on the same narrative. The vector of the most similar documents for a given similarity type is suggested to be computed using the algorithm by Page for web page ranking, often explained as `random walking'.
Česky
Esej o jazyce matematiky, jako specifickém podjazyce přirozeného jazyka: jak může být jazyk matematiky reprezentován, ukládán, prohledáván a zpracováván v projektech jako (Evropská) digitální matematická knihovna jako DML-CZ či EuDML. Je nastíněn způsob počítání podobných matematických článků v digitální matematické knihovně a definováno několik typů podobností: \emph{plagiátorská} závisející na počtu společných $n$-gramů; \emph{obsahová} závisející na společných tématech; či \emph{narativní} pokud dokument popisuje stejný příběh či děj. Je navržen způsob výpočtu těchto podobností novým iteračním algoritmem inspirovaným náhodnými procházkami po webu pana Page.
Návaznosti
| LC536, projekt VaV |
| ||
| 1ET200190513, projekt VaV |
| ||
| 2C06009, projekt VaV |
|