SOJKA, Petr. Languages of Mathematics -- Random Walking in the Mathematics of Languages. Online. In SOJKA, Petr and Aleš HORÁK. Third Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2009. prvni. Brno: Masaryk University, 2009. p. 127-133. ISBN 978-80-210-5048-8. [citováno 2024-04-23]
Other formats:   BibTeX LaTeX RIS
Basic information
Original name Languages of Mathematics -- Random Walking in the Mathematics of Languages
Name in Czech Jazyky matematiky -- náhodná procházka v matematice jazyků
Authors SOJKA, Petr (203 Czech Republic, guarantor, belonging to the institution)
Edition prvni. Brno, Third Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2009, p. 127-133, 7 pp. 2009.
Publisher Masaryk University
Other information
Original language English
Type of outcome Proceedings paper
Field of Study 10201 Computer sciences, information science, bioinformatics
Country of publisher Czech Republic
Confidentiality degree is not subject to a state or trade secret
Publication form printed version "print"
WWW slides Workshop web page full paper in PDF
RIV identification code RIV/00216224:14330/09:00028734
Organization unit Faculty of Informatics
ISBN 978-80-210-5048-8
Keywords in English language of mathematics;mathematics of language;random walking;plagiarity;similarity;topicality;conarrativity;DML-CZ;EuDML
Tags International impact
Changed by Changed by: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Changed: 13/5/2013 23:00.
Abstract
An essay about mathematics being a sublanguage of other natural languages: how it may be represented, stored, searched and handled in several projects of (European) Digital Mathematics Libraries as DML-CZ or EuDML. A framework for solving problem of computing of similar papers in a digital library is proposed, allowing several types of similarity type definitions: \emph{plagiarity} counting on common word $n$-grams, \emph{topicality} counting on common topics, or \emph{conarrativity} counting on the same narrative. The vector of the most similar documents for a given similarity type is suggested to be computed using the algorithm by Page for web page ranking, often explained as `random walking'.
Abstract (in Czech)
Esej o jazyce matematiky, jako specifickém podjazyce přirozeného jazyka: jak může být jazyk matematiky reprezentován, ukládán, prohledáván a zpracováván v projektech jako (Evropská) digitální matematická knihovna jako DML-CZ či EuDML. Je nastíněn způsob počítání podobných matematických článků v digitální matematické knihovně a definováno několik typů podobností: \emph{plagiátorská} závisející na počtu společných $n$-gramů; \emph{obsahová} závisející na společných tématech; či \emph{narativní} pokud dokument popisuje stejný příběh či děj. Je navržen způsob výpočtu těchto podobností novým iteračním algoritmem inspirovaným náhodnými procházkami po webu pana Page.
Links
LC536, research and development projectName: Centrum komputační lingvistiky
Investor: Ministry of Education, Youth and Sports of the CR, Centrum komputační lingvistiky
1ET200190513, research and development projectName: DML-CZ: Česká digitální matematická knihovna
Investor: Academy of Sciences of the Czech Republic, DML-CZ: Czech Digital Mathematical Library
2C06009, research and development projectName: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Acronym: COT-SEWing)
Investor: Ministry of Education, Youth and Sports of the CR
PrintDisplayed: 23/4/2024 23:32