D 2009

Languages of Mathematics -- Random Walking in the Mathematics of Languages

SOJKA, Petr

Základní údaje

Originální název

Languages of Mathematics -- Random Walking in the Mathematics of Languages

Název česky

Jazyky matematiky -- náhodná procházka v matematice jazyků

Autoři

SOJKA, Petr (203 Česká republika, garant, domácí)

Vydání

prvni. Brno, Third Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2009, od s. 127-133, 7 s. 2009

Nakladatel

Masaryk University

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

slides Workshop web page full paper in PDF

Kód RIV

RIV/00216224:14330/09:00028734

Organizační jednotka

Fakulta informatiky

ISBN

978-80-210-5048-8

Klíčová slova anglicky

language of mathematics;mathematics of language;random walking;plagiarity;similarity;topicality;conarrativity;DML-CZ;EuDML

Příznaky

Mezinárodní význam
Změněno: 13. 5. 2013 23:00, doc. RNDr. Petr Sojka, Ph.D.

Anotace

ORIG CZ

V originále

An essay about mathematics being a sublanguage of other natural languages: how it may be represented, stored, searched and handled in several projects of (European) Digital Mathematics Libraries as DML-CZ or EuDML. A framework for solving problem of computing of similar papers in a digital library is proposed, allowing several types of similarity type definitions: \emph{plagiarity} counting on common word $n$-grams, \emph{topicality} counting on common topics, or \emph{conarrativity} counting on the same narrative. The vector of the most similar documents for a given similarity type is suggested to be computed using the algorithm by Page for web page ranking, often explained as `random walking'.

Česky

Esej o jazyce matematiky, jako specifickém podjazyce přirozeného jazyka: jak může být jazyk matematiky reprezentován, ukládán, prohledáván a zpracováván v projektech jako (Evropská) digitální matematická knihovna jako DML-CZ či EuDML. Je nastíněn způsob počítání podobných matematických článků v digitální matematické knihovně a definováno několik typů podobností: \emph{plagiátorská} závisející na počtu společných $n$-gramů; \emph{obsahová} závisející na společných tématech; či \emph{narativní} pokud dokument popisuje stejný příběh či děj. Je navržen způsob výpočtu těchto podobností novým iteračním algoritmem inspirovaným náhodnými procházkami po webu pana Page.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
1ET200190513, projekt VaV
Název: DML-CZ: Česká digitální matematická knihovna
Investor: Akademie věd ČR, DML-CZ: Česká digitální matematická knihovna
2C06009, projekt VaV
Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce
Zobrazeno: 28. 10. 2024 22:10