J 2020

BinaryCIF and CIFTools-Lightweight, efficient and extensible macromolecular data management

SEHNAL, David, Sebastian BITTRICH, Sameer VELANKAR, Jaroslav KOČA, Radka SVOBODOVÁ et. al.

Základní údaje

Originální název

BinaryCIF and CIFTools-Lightweight, efficient and extensible macromolecular data management

Autoři

SEHNAL, David (203 Česká republika, domácí), Sebastian BITTRICH, Sameer VELANKAR, Jaroslav KOČA (203 Česká republika, garant, domácí), Radka SVOBODOVÁ (203 Česká republika, domácí), Stephen K. BURLEY a Alexander S. ROSE

Vydání

PLoS Computational Biology, San Francisco, Public Library of Science, 2020, 1553-734X

Další údaje

Jazyk

angličtina

Typ výsledku

Článek v odborném periodiku

Obor

10608 Biochemistry and molecular biology

Stát vydavatele

Spojené státy

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Impakt faktor

Impact factor: 4.475

Kód RIV

RIV/00216224:14740/20:00117701

Organizační jednotka

Středoevropský technologický institut

UT WoS

000585163600006

Klíčová slova anglicky

Structural Biology; Molecular Graphics; Data Curation

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 22. 2. 2021 13:09, Mgr. Pavla Foltynová, Ph.D.

Anotace

V originále

3D macromolecular structural data is growing ever more complex and plentiful in the wake of substantive advances in experimental and computational structure determination methods including macromolecular crystallography, cryo-electron microscopy, and integrative methods. Efficient means of working with 3D macromolecular structural data for archiving, analyses, and visualization are central to facilitating interoperability and reusability in compliance with the FAIR Principles. We address two challenges posed by growth in data size and complexity. First, data size is reduced by bespoke compression techniques. Second, complexity is managed through improved software tooling and fully leveraging available data dictionary schemas. To this end, we introduce BinaryCIF, a serialization of Crystallographic Information File (CIF) format files that maintains full compatibility to related data schemas, such as PDBx/mmCIF, while reducing file sizes by more than a factor of two versus gzip compressed CIF files. Moreover, for the largest structures, BinaryCIF provides even better compression-factor ten and four versus CIF files and gzipped CIF files, respectively. Herein, we describe CIFTools, a set of libraries in Java and TypeScript for generic and typed handling of CIF and BinaryCIF files. Together, BinaryCIF and CIFTools enable lightweight, efficient, and extensible handling of 3D macromolecular structural data.

Návaznosti

EF16_013/0001777, projekt VaV
Název: ELIXIR-CZ: Budování kapacit
LM2018131, projekt VaV
Název: Česká národní infrastruktura pro biologická data (Akronym: ELIXIR-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Česká národní infrastruktura pro biologická data