a 2026

GROMACS MetaDump: A tool to describe molecular dynamics simulations with powerful metadata

SLANINÁKOVÁ, Terézia; Adrián ROŠINEC; Tomáš PAVLÍK; Róbert RANDIAK; Tomáš SVOBODA et al.

Základní údaje

Originální název

GROMACS MetaDump: A tool to describe molecular dynamics simulations with powerful metadata

Vydání

2026

Další údaje

Typ výsledku

Konferenční abstrakt

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Označené pro přenos do RIV

Ne
Změněno: 16. 2. 2026 09:35, RNDr. Terézia Slanináková

Anotace

V originále

Molecular dynamics (MD) simulations generate vast datasets that are increasingly shared through public repositories, however, fragmentation and inconsistent metadata hinder their reuse. As a result, a vast majority of MD simulations is “technically accessible, but neither indexed, curated, or easily searchable” [1]. To address this problem, we present GROMACS MetaDump (https://gmd.ceitec.cz/), a software tool that automatically extracts, structures, and annotates GROMACS simulation files, producing rich and consistent metadata, capturing key descriptors such as simulation parameters, system setup, macromolecule identifiers (PDB, UniProt, PubChem), and administrative details. Without needing any manual input, the tool uses the simulation input file (.tpr) as the foundation, and optionally topology (.top) and structure (.gro) files, the tool produces human- and machine-readable outputs in JSON or YAML, which can be optionally edited. The mechanism behind the tool was validated on 4,364 publicly available GROMACS simulations and demonstrate its utility with two case studies: detailed annotation of Helicobacter pylori TonB-CTD simulations and large-scale analysis of repository trends. By standardising and automating metadata extraction, GROMACS MetaDump improves indexability and searchability of MD data, in line with the incentives of initiatives such as MDDB. GROMACS MetaDump is freely accessible as a web application, through API, and command-line utility, facilitating integration into diverse research workflows. [1] J. Tiemann, M. Szczuka, L. Bouarroudj, M. Oussaren, S. Garcia, R. Howard, L. Delemotte, E. Lindahl, M. Baaden, K. Lindorff-Larsen, M. Chavent, P. Poulain, eLife, 12, RP90061 (2024)

Návaznosti

LM2023055, projekt VaV
Název: Česká národní infrastruktura pro biologická data
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, ELIXIR-CZ: Česká národní infrastruktura pro biologická data
776/2025, interní kód MU
Název: Nástroj pro pokročilé sémantické prohledávání v datech molekulové dynamiky
Investor: CESNET, Nástroj pro pokročilé sémantické prohledávání v datech molekulové dynamiky
90254, velká výzkumná infrastruktura
Název: e-INFRA CZ II
90255, velká výzkumná infrastruktura
Název: ELIXIR CZ III