北京基因组所(国家生物信息中心)多组学数据资源体系建设持续取得重要进展

  近日,中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心(CNCB-NGDC)的多组学数据资源体系年度成果在国际生物数据库顶级期刊《核酸研究》(Nucleic Acids Research在线发表。至此,CNCB-NGDC共有10篇论文入选将于20231月正式出版的《核酸研究》2023年度数据库专刊,在生物数据库领域继续位于国际第一方阵。 

  2022年,CNCB-NGDC与共建单位以及30多家合作单位密切合作,持续更新和完善核心数据库资源(GSA、GWHGVMGENMethBankLncRNARCoV19等),并开发了多个全新数据库(基因序列数据库GenBase,猴痘病毒基因组信息库MpoxVR,新冠病毒知识图谱数据库KGCoV,原核生物泛基因组数据库ProPan,人类癌症可变剪接知识库ASCancer Atlas,全转录组关联研究知识库TWAS Atlas,脑数据资源库Brain Catalog,个体癌症基因组数据库CCAS,同源基因数据库HGD,热带作物组学数据库TCOD等),进一步拓展了涵盖基础组学、国家人类遗传、重要战略生物、病毒等资源信息库以及生物信息在线分析工具等在内的多组学数据资源体系,为国家基因组科学数据的汇交共享、安全管理和挖掘利用提供了重要支撑。 

  CNCB-NGDC汇聚全球数据,免费为国内外用户提供一站式多组学数据汇交和存储服务,发布的数据编号被Springer NatureElsevierWileyTaylor & FrancisCell等全球主要出版集团认可。截至20221220日,组学原始数据管理体系(GSA Family)已支持各类科技项目10900多个,汇交数据量近19PB,来自754家单位3500名用户,相关数据已发表在457种国内外期刊的近2000篇文章。20227月起CNCB-NGDC承担国家人类遗传资源信息管理备份平台运行维护任务,实现国家人类遗传资源信息一体化管理、备份、发布与共享。新冠病毒信息库(RCoV19)不断更新,目前已收录新冠病毒序列超1400万条,为全球181个国家/地区240多万名访客提供数据服务,累计数据下载达100多亿条,在新冠病毒演化分析、监测、溯源等方面发挥了重要作用,入选2022年世界互联网领先科技成果手册。

  CNCB-NGDC的建设得到科技部、财政部、中国科学院、国家自然科学基金委、一带一路国际科学组织联盟、国际生物科学联合会等的资助。

  CNCB-NGDC在《核酸研究》2023年数据库专刊发表的论文: 

  1.CNCB-NGDC数据库资源(整体介绍文章 

  2.原核生物泛基因组数据库ProPan  

  3.全转录组关联研究知识库TWAS Atlas 

  4.细胞分类库Cell Taxonomy 

  5.同源基因数据库HGD 

  6.人类癌症可变剪接知识库ASCancer Atlas 

  7.脑数据资源库Brain Catalog 

  8.动植物基因组变异与表型关联知识库GWAS Atlas v2.0 

  9.DNA甲基化数据库MethBank 4.0 

       10.人类长非编码RNA数据库LncBook 2.0

CNCB-NGDC多组学数据资源体系(Nucleic Acids Res 2023

 

  GSA数据增长图 

附件下载: