国家基因组科学数据中心

  一、中心成立及定位

  国家基因组科学数据中心(National Genomics Data Center,简称NGDC)于2019年6月经科技部、财政部通知公布,由中国科学院北京基因组研究所(国家生物信息中心)作为依托单位,联合中国科学院生物物理研究所和中国科学院上海营养与健康研究所共同建设。中心面向我国人口健康和社会可持续发展的重大战略需求,建立生命与健康大数据汇交存储、安全管理、开放共享与整合挖掘研究体系,研发大数据前沿交叉与转化应用的新方法和新技术,建设支撑我国生命科学发展、国际领先的基因组科学数据中心。

定位与目标

  二、中心运行机制与组成

  中心主任:鲍一明研究员

  中心副主任:章张研究员, 宋述慧研究员

  工作团队:组学原始数据归档库、基因组数据库、基因组变异数据库、基因表达数据库、表观基因组数据库、非编码RNA数据库、精准医学知识库、生物信息工具库和系统运维部等。

国家基因组科学数据中心集体照

  三、年度主要科研进展

  1.多组学数据资源体系建设持续取得重要进展

  2022年,NGDC持续更新和完善核心数据库资源(GSA、GWH、GVM、GEN、MethBank、LncBook、RCoV19等),并开发了多个全新数据库,进一步拓展了涵盖基础组学、国家人类遗传、重要战略生物、病毒等资源信息库以及生物信息在线分析工具等在内的多组学数据资源体系。NGDC提供一站式数据递交和中英文服务,发布的数据编号被全球主要出版集团认可。截至2022年12月底,组学原始数据管理体系(GSA Family)已支持各类科技项目10,900多个,汇交数据量超19PB,相关数据已发表在475种国内外期刊的2000多篇文章,为国家基因组科学数据的汇交共享、安全管理和挖掘利用提供了重要支撑。数据库建设整体情况以“Database resources of the National Genomics Data Center, China National Center for Bioinformation in 2023”为题在Nucleic Acids Research 在线发表。

国家基因组科学数据中心多组学数据资源体系

  2.国家人类遗传资源信息管理备份平台完成升级和开通运行

  人类遗传资源信息是指利用人类遗传资源材料产生的数据等信息资料,是国家重要战略生物资源。受科技部委托,NGDC承担国家人类遗传资源信息管理备份任务,于2022年7月18日完成升级和开通运行人类遗传资源信息管理备份一体化平台。该平台充分利用NGDC的生物信息数据资源架构和体系,整合了人类遗传资源组学原始数据归档库(GSA-Human)、基因组数据库(GWH)、基因组变异数据库(GVM)和多元数据归档库(OMIX),实现人类遗传资源信息管理、备份、发布与共享,为科学研究、政府决策和产业应用提供一体化服务。

人类遗传资源信息管理备份平台

  3.组学原始数据归档库GSA实现与NCBI SRA数据库的数据整合

  2022年5月,在国际核酸序列数据库联盟(INSDC)的支持和美国国家生物信息技术中心(NCBI)的技术协助下,NGDC完成NCBI生物项目管理数据库(BioProject)、生物样本管理数据库(BioSample)全部数据及序列片段归档库(Sequence Read Archive,SRA)全部元数据与自主开发数据库的整合,实现了上述数据在NGDC网站的一站式检索与访问,极大提升了国内科研人员查询和获取数据的效率。

GSA整合国际来源数据

  4.2019新冠病毒信息库(RCoV19)持续升级更新

  RCoV19于2022年1月22日发布更新版,新增新冠病毒基因组结构及注释、新冠病毒宿主分布、重要突变功能知识、新冠感染基因表达研究专题、主要株系序列变异比较、核酸引物区突变监测和Omicron变异株监测7个功能模块,提供了新冠病毒基因组结构功能的最新认知,以及当前主要流行株系的突变比较及时空监测。截至2022年12月20日,已收录新冠病毒序列超1400万条,为全球181个国家/地区240多万名访客提供数据服务,累计数据下载达100多亿条,在病毒演化分析、监测、溯源等方面发挥了重要作用,入选2022年世界互联网领先科技成果手册。

  此外,NGDC与中科院上海营养健康所合作开发了新冠病毒基因组浏览器(Coronavirus GenBrowser,GCB)。基于分布式基因组序列比对,CGB采用自主开发的超快构树新方法进行进化树构建,并基于超快速极大似然法估算内节点时间,解决了快速构建百万病毒基因组序列的进化关系与可视化展示的关键问题。该成果以 “Coronavirus GenBrowser for monitoring the transmission and evolution of SARS-CoV-2”为题于2022年1月在Briefings in Bioinformatics 在线发表。

RCoV19持续升级更新

  5.发布猴痘病毒信息库MPoXVR

  为支撑猴痘病毒相关研究,NGDC于2022年6月10日正式发布猴痘病毒信息库(Monkeypox Virus Resource,MPoxVR)。该库整合了美国NCBI公开发布的全球猴痘病毒基因组序列数据和元信息,并对不同猴痘病毒株的基因组序列做了变异分析与展示,同时提供基因组注释、基因组变异分析和注释、BLAST等在线分析工具,以及相关的SRA测序原始数据、学术文献、科普文章和其他猴痘资源数据库。截至2022年12月底,已收录来自全球42个国家和地区的猴痘病毒基因组序列4000多条。该成果以 “MPoxVR–A comprehensive genomic resource for monkeypox virus variants surveillance”为题于2022年8月在The Innovation 在线发表。

猴痘病毒信息库页面

  6.开发原核生物泛基因组数据库ProPan

  相比于传统的比较基因组学分析,泛基因组学为开展物种基因组动力学、分类及鉴定、致病性和环境适应等研究提供了新的视角。为此,NGDC开发了原核生物泛基因组数据库ProPan,旨在提供多物种的基因组动力学特征,为物种关键抗性和代谢相关基因鉴定及其演化规律研究提供重要的数据资源。ProPan不仅剖析了多个原核生物物种的基因组动力学特征,还进行了基因簇核苷酸多样性计算、COG功能富集分析、31个关键代谢循环过程及图谱构建、126种物质(包括杀菌剂、抗菌药物和金属)抗性基因预测和基因存在/缺失变异分析等。目前,ProPan共收集了432个属1504个物种的51,882个基因组。用户可以以物种作为基本单元,进行数据的浏览、搜索和下载。该成果以“ProPan: a comprehensive database for profiling prokaryotic pan-genome dynamics”为题在Nucleic Acid Research 在线发表。

ProPan数据库浏览、搜索及分析展示

  7.开发全转录组关联研究知识库TWAS Atlas

  全转录组关联研究(TWAS)技术的兴起为探索人类复杂性状或疾病相关的关键基因提供了有效手段。为此,NGDC开发了TWAS Atlas知识库系统,为基因-性状关联知识的创建和挖掘提供重要参考。目前,TWAS Atlas共整合200篇TWAS研究的分析数据,通过人工审编获得401,266条高质量的人类基因-性状关联条目,涉及257种性状、22,247个基因及135种组织类型,并同步收集了研究相关元数据和注释信息。此外,数据库从头构建了一个综合性的交互式SNP-基因-性状关联知识图谱,实现了多疾病、多组织、多组学层次关联调控关系的在线解析和可视化。该成果以“TWAS Atlas: a curated knowledgebase of transcriptome-wide association studies”为题在Nucleic Acid Research 在线发表。

TWAS Atlas关联知识图谱分析示例

  8.发布细胞分类库Cell Taxonomy

  随着单细胞技术的迅速发展和应用,越来越多的细胞类型和细胞多态性被发现。准确的细胞分类对于描绘细胞类型多样性、追踪细胞谱系、表征肿瘤微环境以及阐明发育和疾病复杂机制至关重要。为此,NGDC发布了细胞分类库Cell Taxonomy,旨在提供多物种的细胞特征刻画和细胞标志物(cell marker)评估,为细胞类型注释和单细胞相关研究提供重要数据资源。Cell Taxonomy基于4299篇文献审编、15个相关数据资源整合和单细胞测序数据分析(约350万个细胞),目前共收录3143种细胞类型和26,613个细胞标志物(cell marker),涵盖34个物种、387种组织和257种生理/病理状态。该成果以“Cell Taxonomy: a curated repository of cell types with multifaceted characterization”为题在国际学术期刊 Nucleic Acids Research 在线发表。

细胞分类库主要内容 

   9.开发同源基因数据库HGD

  同源基因是指来源于共同祖先的基因,常用于研究基因进化过程以及推断基因的潜在功能,在进化基因组研究以及系统生物学的功能研究中具有重要价值。为此,NGDC开发了同源基因数据库(Homologous Gene Database,HGD)。HGD整合国际上多个同源资源数据集,解决了当前同源资源库在同源关系和同源基因标识方面存在差异、同源推断方法多样以及部分数据库同源基因鉴定结果不一致带来的困扰,提供了一个综合、全面、简单、直观的同源基因数据集。目前,HGD收集了人、常见动植物以及微生物等37个物种共计112,383,644个同源对,用户可通过物种名、基因ID、基因功能、蛋白ID、蛋白名以及相关注释等多种条件进行数据检索和筛选。该成果以“HGD: an integrated homologous gene database across multiple species”为题在Nucleic Acids Research 在线发表。

同源基因数据库页面

  10.发布人类癌症可变剪接知识库ASCancer Atlas

  可变剪接(alternative splicing)是指从一个mRNA前体中通过不同的剪接方式(选择不同的剪接位点组合)产生不同的mRNA剪接异构体的过程。研究表明,可变剪接异常与肿瘤的发生、发展以及耐药性密切相关。为此,NGDC开发了ASCancer Atlas知识库,为研究人员提供较为完善的人类癌症可变剪接信息资源。 ASCancer Atlas主要收集两类癌症相关剪接事件:实验验证的剪接事件和计算方法推断的剪接事件。首先,基于610篇已公开发表的文献,人工审编了2006条实验验证的癌症特异性剪接事件,共涉及29个人类癌症原发性位点及60种癌症亚型。此外,还整合了约200万个计算推断的剪接事件,涵盖33种TCGA癌症类型以及31种GTEx正常组织类型。最后,数据库还提供了一系列可视化和在线分析工具用于进一步探索这些剪接事件的潜在调控机制、临床相关性以及衍生的药物反应。该成果以“ASCancer Atlas: a comprehensive knowledgebase of alternative splicing in human cancers”为题在Nucleic Acids Research 在线发表。

ASCancer Atlas内容概览

  11.升级发布动植物基因组变异与表型关联知识库GWAS Atlas v2.0

  基因组序列变异与表型关联知识,主要是通过全基因组关联分析(GWAS),在全基因组范围内鉴定与特定疾病或表型性状等相关联的遗传变异位点,是挖掘和揭示生物复杂性状分子遗传机制的重要资源。GWAS Atlas v2.0基于830篇科研文献,提供了15个物种(包括10种植物和5种动物)及与其1444个性状相关联的278,109条基因型与表型关联知识,鉴定到与439个性状相关的6084个独立变异位点(Lead SNPs),并新收录157个性状的486个经实验验证的因果变异(Casual variants),为重要农艺性状的模块化遗传研究和育种应用提供了重要数据管理和分析平台。该成果以“GWAS Atlas: an updated knowledgebase integrating more curated associations in plants and animals”为题在Nucleic Acid Research 在线发表。

GWAS Atlas 2.0数据更新情况

  12.发布DNA甲基化数据库第四版MethBank 4.0

  MethBank是一个综合性的DNA甲基化数据库,自2014年上线以来,一直致力于整合多物种高质量的全基因组单碱基精度DNA甲基化数据。2022年MethBank升级发布了第四版。MethBank 4.0应用标准化处理流程整合了来自1449个样本的高质量全基因组重亚硫酸盐测序(WGBS)数据,涵盖23个物种的236个组织/细胞系,涉及疾病、发育等15个生物学场景。MethBank 4.0具备界面友好的浏览、检索、可视化等功能,提供DNA甲基化数据信息、知识信息和分析工具,为科研人员探索多种生物学场景下的DNA甲基化模式提供重要数据和信息资源。该成果以“MethBank 4.0: an updated database of DNA methylation across a variety of species”为题在Nucleic Acids Research 在线发表。

MethBank 4.0页面

  13.发布更新版人类长非编码RNA数据库LncBook 2.0

  长非编码RNA(long non-coding RNA, lncRNA)是哺乳动物基因组中的重要组成部分,参与DNA甲基化、组蛋白修饰、转录调控、转录后调控等多个生物学过程,与人类疾病的产生和发展密切相关。NGDC于2019年首次发布了LncBook数据库,致力于人类lncRNA数据整合,并通过多组学数据分析对lncRNA进行系统注释。2022年LncBook进行了升级更新,收录了119,722个新的转录本,注释了9632个新的基因,更新了21,305个lncRNA基因的结构。丰富的多组学数据是LncBook2.0的一大亮点,包括保守性、表达、DNA甲基化、变异、小蛋白、相互作用六个方面。该成果以“LncBook 2.0: integrating human long non-coding RNAs with multi-omics annotations”为题在Nucleic Acids Research 在线发表。

LncBook 2.0内容与功能概览

  四、获奖与荣誉

  新冠病毒变异监测与分子溯源研究团队获中国科学院第三届“科苑名匠”称号;

  新冠病毒信息库(RCoV19)入选2022年世界互联网领先科技成果手册

  唐碧霞,2022年度中科院技术支撑人才;

  降帅,2022年度中科院青促会会员;

  熊壮、刘晓楠、王国梁,2022年度研究生国家奖学金;

  滕徐菲、熊壮,2022年度中科院院长优秀奖;

  张韬,2022年度中科院朱李月华优秀博士生奖。

附件下载: