国家生物信息中心组学原始数据管理体系(GSA Family)研发取得新进展

近期,国家生物信息中心在国际学术期刊 Genomics, Proteomics & Bioinformatics 在线发表了题为 “The GSA Family in 2025: A Broadened Sharing Platform for Multi-Omics and Multimodal Data” 的数据库体系更新版研究论文。组学原始数据管理体系(GSA Family)面向全球科研工作者开放,支持多组学数据的提交、归档与管理,并为所有公开可用数据提供免费访问服务,为生命科学研究提供坚实支撑。

2025年版本的GSA Family由四个成员组成:组学原始数据归档库(GSA)、人类组学原始数据归档库(GSA-Human)、多元数据归档库(OMIX)以及新纳入的开放生物医学影像存档库(OBIA)。OBIA实现了与原始序列数据的深度关联,可显著增强对疾病分子机制解析和个体化诊疗探索的支持能力。本次升级,GSA Family扩展了可接收的数据类型范围,进一步强化了标准化与自动化质控体系,全面提升了检索效率,并系统优化了数据共享与访问管理机制,从而为多组学整合分析奠定了更为稳固、高质量的数据资源基础。

GSA Family数据资源与功能更新概览图

截至2025年12月,GSA Family共归档数据集44,904个,总数据量超过92.8 PB。其中,已发布开放访问数据集13,663个,累计下载量超过1.66亿次;受控访问数据集6799个,总下载量超10 PB。GSA家族的数据已在全球5081篇科研论文中被引用,覆盖804种学术期刊,并被Elsevier、Wiley、Springer Nature等国际出版集团认可为指定的核酸数据归档库。此外,GSA实现了对美国国家生物技术信息中心(NCBI)原始测序数据的每日镜像与同步,累计整合超过10 PB的全球数据资源,为跨平台大规模数据共享与分析提供坚实基础。

国家生物信息中心的张思思、陈旭、金恩惠、王安可和陈婷婷为该文共同第一作者,王彦青高级工程师、赵文明正高级工程师为共同通讯作者。

本研究得到国家重点研发计划、中国科学院战略先导专项、国家自然基金委等项目支持,GSA Family归档数据使用的计算机硬件设施得到国家财政部修缮购置专项的长期保障。

论文链接

附件下载: