SOJKA, Petr. Languages of Mathematics -- Random Walking in the Mathematics of Languages. In SOJKA, Petr a Aleš HORÁK. Third Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2009. prvni. Brno: Masaryk University, 2009, s. 127-133. ISBN 978-80-210-5048-8.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Languages of Mathematics -- Random Walking in the Mathematics of Languages
Název česky Jazyky matematiky -- náhodná procházka v matematice jazyků
Autoři SOJKA, Petr (203 Česká republika, garant, domácí).
Vydání prvni. Brno, Third Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2009, od s. 127-133, 7 s. 2009.
Nakladatel Masaryk University
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW slides Workshop web page full paper in PDF
Kód RIV RIV/00216224:14330/09:00028734
Organizační jednotka Fakulta informatiky
ISBN 978-80-210-5048-8
Klíčová slova anglicky language of mathematics;mathematics of language;random walking;plagiarity;similarity;topicality;conarrativity;DML-CZ;EuDML
Příznaky Mezinárodní význam
Změnil Změnil: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Změněno: 13. 5. 2013 23:00.
Anotace
An essay about mathematics being a sublanguage of other natural languages: how it may be represented, stored, searched and handled in several projects of (European) Digital Mathematics Libraries as DML-CZ or EuDML. A framework for solving problem of computing of similar papers in a digital library is proposed, allowing several types of similarity type definitions: \emph{plagiarity} counting on common word $n$-grams, \emph{topicality} counting on common topics, or \emph{conarrativity} counting on the same narrative. The vector of the most similar documents for a given similarity type is suggested to be computed using the algorithm by Page for web page ranking, often explained as `random walking'.
Anotace česky
Esej o jazyce matematiky, jako specifickém podjazyce přirozeného jazyka: jak může být jazyk matematiky reprezentován, ukládán, prohledáván a zpracováván v projektech jako (Evropská) digitální matematická knihovna jako DML-CZ či EuDML. Je nastíněn způsob počítání podobných matematických článků v digitální matematické knihovně a definováno několik typů podobností: \emph{plagiátorská} závisející na počtu společných $n$-gramů; \emph{obsahová} závisející na společných tématech; či \emph{narativní} pokud dokument popisuje stejný příběh či děj. Je navržen způsob výpočtu těchto podobností novým iteračním algoritmem inspirovaným náhodnými procházkami po webu pana Page.
Návaznosti
LC536, projekt VaVNázev: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
1ET200190513, projekt VaVNázev: DML-CZ: Česká digitální matematická knihovna
Investor: Akademie věd ČR, DML-CZ: Česká digitální matematická knihovna
2C06009, projekt VaVNázev: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce
VytisknoutZobrazeno: 11. 5. 2024 05:54