SOJKA, Petr. Math-aware Similarity of Papers in Digital Mathematics Libraries. 2014.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Math-aware Similarity of Papers in Digital Mathematics Libraries
Autoři SOJKA, Petr (203 Česká republika, garant, domácí).
Vydání 2014.
Další údaje
Originální jazyk angličtina
Typ výsledku Konferenční abstrakt
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
WWW Extended abstract
Kód RIV RIV/00216224:14330/14:00077987
Organizační jednotka Fakulta informatiky
Klíčová slova česky podobnost dokumentů; digitální matematická knihovna; EuDML; DML-CZ
Klíčová slova anglicky document similarity; digital mathematics library; EuDML; DML-CZ
Příznaky Mezinárodní význam
Změnil Změnil: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Změněno: 5. 1. 2015 16:02.
Anotace
The exploratory, semantic similarity searching is becoming widespread in digital libraries, and math ones are no exception. For working mathematicians and their use of digital mathematical libraries (DML) as the Czech Digital Mathematics Library DML-CZ or European Digital Mathematics Library (EuDML) we have designed and implemented math-aware similarity computation framework based on leading edge topic modelling techniques implemented by Gensim software package. Studies on the classification of math papers done for DML-CZ have been tested and deployed in EuDML, where for given paper ten most semantically similar papers are computed and shown. In the latest experiments we are evaluating several possible representations of mathematical formulae to get the semantically similar papers. Quality of similarity is measured by comparation to the similarity matrix induced from the Mathematical Subject Classifications every paper is marked up by. In the talk we will report a) about the evaluation of the similarities computed by several different methods, b) on the experience from 20 months of deployment in EuDML and more than 5 years in DML-CZ, c) about the importance of representing formulae even for paper similarity computations, d) on setting up Gensim for the math-aware use in DML projects.
Návaznosti
LG13010, projekt VaVNázev: Zastoupení ČR v European Research Consortium for Informatics and Mathematics (Akronym: ERCIM-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Zastoupení ČR v European Research Consortium for Informatics and Mathematics
250503, interní kód MUNázev: The European Digital Mathematics Library (Akronym: EuDML)
Investor: Evropská unie, The European Digital Mathematics Library
VytisknoutZobrazeno: 25. 4. 2024 07:10