SOJKA, Petr, Martin LÍŠKA a Michal RŮŽIČKA. Building Corpora of Technical Texts : Approaches and Tools. In Aleš Horák, Pavel Rychlý. Fifth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2011. první. Brno: Tribun EU, 2011, s. 71--82, 11 s. ISBN 978-80-263-0077-9.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Building Corpora of Technical Texts : Approaches and Tools
Název česky Budování korpusů technických textů : přístupy a nástroje
Autoři SOJKA, Petr (203 Česká republika, garant, domácí), Martin LÍŠKA (703 Slovensko, domácí) a Michal RŮŽIČKA (203 Česká republika, domácí).
Vydání první. Brno, Fifth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2011, od s. 71--82, 11 s. 2011.
Nakladatel Tribun EU
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW slides full paper in PDF Workshop web page
Kód RIV RIV/00216224:14330/11:00053999
Organizační jednotka Fakulta informatiky
ISBN 978-80-263-0077-9
Klíčová slova česky reprezentace matematických formulí; matematické korpusy;podobnost;MREC;DML-CZ;EuDML
Klíčová slova anglicky language of mathematics;mathematics of language;math representation;m-term;similarity;DML-CZ;EuDML
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Změněno: 21. 1. 2013 00:51.
Anotace
Building corpora of technical texts in Science, Technology, Engineering, and Mathematics (STEM) domain has its specific needs, especially the handling of mathematical formulae. In particular, there is no widely accepted format to represent and handle math. We present an approach based on multiple representations of mathematical formulae that has been used for math retrieval, similarity and clustering of mathematical corpus. We provide an overview of our toolset, summarize our experiments to date and propose further research directions and approaches.
Návaznosti
LC536, projekt VaVNázev: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
250503, interní kód MUNázev: The European Digital Mathematics Library (Akronym: EuDML)
Investor: Evropská unie, The European Digital Mathematics Library
VytisknoutZobrazeno: 24. 4. 2024 18:10