Detailed Information on Publication Record
2009
Languages of Mathematics -- Random Walking in the Mathematics of Languages
SOJKA, PetrBasic information
Original name
Languages of Mathematics -- Random Walking in the Mathematics of Languages
Name in Czech
Jazyky matematiky -- náhodná procházka v matematice jazyků
Authors
SOJKA, Petr (203 Czech Republic, guarantor, belonging to the institution)
Edition
prvni. Brno, Third Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2009, p. 127-133, 7 pp. 2009
Publisher
Masaryk University
Other information
Language
English
Type of outcome
Stať ve sborníku
Field of Study
10201 Computer sciences, information science, bioinformatics
Country of publisher
Czech Republic
Confidentiality degree
není předmětem státního či obchodního tajemství
Publication form
printed version "print"
References:
RIV identification code
RIV/00216224:14330/09:00028734
Organization unit
Faculty of Informatics
ISBN
978-80-210-5048-8
Keywords in English
language of mathematics;mathematics of language;random walking;plagiarity;similarity;topicality;conarrativity;DML-CZ;EuDML
Tags
International impact
Změněno: 13/5/2013 23:00, doc. RNDr. Petr Sojka, Ph.D.
V originále
An essay about mathematics being a sublanguage of other natural languages: how it may be represented, stored, searched and handled in several projects of (European) Digital Mathematics Libraries as DML-CZ or EuDML. A framework for solving problem of computing of similar papers in a digital library is proposed, allowing several types of similarity type definitions: \emph{plagiarity} counting on common word $n$-grams, \emph{topicality} counting on common topics, or \emph{conarrativity} counting on the same narrative. The vector of the most similar documents for a given similarity type is suggested to be computed using the algorithm by Page for web page ranking, often explained as `random walking'.
In Czech
Esej o jazyce matematiky, jako specifickém podjazyce přirozeného jazyka: jak může být jazyk matematiky reprezentován, ukládán, prohledáván a zpracováván v projektech jako (Evropská) digitální matematická knihovna jako DML-CZ či EuDML. Je nastíněn způsob počítání podobných matematických článků v digitální matematické knihovně a definováno několik typů podobností: \emph{plagiátorská} závisející na počtu společných $n$-gramů; \emph{obsahová} závisející na společných tématech; či \emph{narativní} pokud dokument popisuje stejný příběh či děj. Je navržen způsob výpočtu těchto podobností novým iteračním algoritmem inspirovaným náhodnými procházkami po webu pana Page.
Links
LC536, research and development project |
| ||
1ET200190513, research and development project |
| ||
2C06009, research and development project |
|